A Methodological Framework for Creating Large-Scale Corpus for Natural Language Processing Models

Santos Leon, David Enrique; Auquilla Sangolqui, Andres Vinicio; Siguenza Guzman, Lorena Catalina; Peña Ortega, Mario Patricio

Please use this identifier to cite or link to this item: http://dspace.ucuenca.edu.ec/handle/123456789/37768

Full metadata record

DC Field	Value	Language
dc.contributor.author	Santos Leon, David Enrique	-
dc.contributor.author	Auquilla Sangolqui, Andres Vinicio	-
dc.contributor.author	Siguenza Guzman, Lorena Catalina	-
dc.contributor.author	Peña Ortega, Mario Patricio	-
dc.date.accessioned	2022-01-13T15:12:26Z	-
dc.date.available	2022-01-13T15:12:26Z	-
dc.date.issued	2021	-
dc.identifier.isbn	000-0000-00-000-0	-
dc.identifier.issn	1865-0929	-
dc.identifier.uri	https://link.springer.com/chapter/10.1007/978-3-030-89941-7_7	-
dc.description	Actualmente, hay un auge en la introducción de modelos de Machine Learning en varios aspectos de la vida cotidiana. Un campo relevante es el Procesamiento del Lenguaje Natural (PNL) que busca modelar el lenguaje humano. Un componente clave y básico para que estos modelos aprendan correctamente son los datos. Este artículo propone un marco metodológico para la construcción de un corpus a gran escala para alimentar modelos de PNL. El desarrollo de este marco surge del problema de encontrar insumos en idiomas distintos del inglés para alimentar los modelos de PNL. Con un enfoque enfocado a producir un recurso de alta calidad, se diseñaron las fases de construcción junto con las consideraciones que se deben tomar. Las etapas implementadas consisten en la caracterización del corpus a obtener, recolección de documentos, limpieza, traducción, almacenamiento y evaluación. El enfoque propuesto implementó traductores automáticos para aprovechar la gran cantidad de literatura en inglés y se implementó a través de bibliotecas gratuitas. Finalmente, se desarrolló un estudio de caso que resultó en un corpus en español con más de 170.000 documentos dentro de un dominio específico, es decir, opiniones sobre productos textiles. A través de las evaluaciones realizadas, se establece que el marco propuesto puede construir un corpus de gran escala y calidad.	-
dc.description.abstract	Currently, there is a boom in introducing Machine Learning models to various aspects of everyday life. A relevant field consists of Natural Language Processing (NLP) that seeks to model human language. A key and basic component for these models to learn properly consists of the data. This article proposes a methodological framework for constructing a large-scale corpus to feed NLP models. The development of this framework emerges from the problem of finding inputs in languages other than English to feed NLP models. With an approach focused on producing a high-quality resource, the construction phases were designed along with the considerations that must be taken. The stages implemented consist of the corpus characterization to be obtained, collecting documents, cleaning, translation, storage, and evaluation. The proposed approach implemented automatic translators to take advantage of the vast amount of English literature and implemented through non-cost libraries. Finally, a case study was developed, resulting in a corpus in Spanish with more than 170,000 documents within a specific domain, i.e., opinions on textile products. Through the evaluations carried out, it is established that the proposed framework can build a large-scale and high-quality corpus.	-
dc.language.iso	es_ES	-
dc.publisher	Springer	-
dc.source	Communications in Computer and Information Science	-
dc.subject	Corpus construction	-
dc.subject	Corpus in Spanish	-
dc.subject	Large-scale corpus	-
dc.subject	Methodological framework	-
dc.subject	Supplies for NLP	-
dc.title	A Methodological Framework for Creating Large-Scale Corpus for Natural Language Processing Models	-
dc.type	ARTÍCULO DE CONFERENCIA	-
dc.description.city	Guayaquil	-
dc.ucuenca.idautor	0104997218	-
dc.ucuenca.idautor	0103557369	-
dc.ucuenca.idautor	0102659687	-
dc.ucuenca.idautor	0302168141	-
dc.identifier.doi	10.1007/978-3-030-89941-7_7	-
dc.ucuenca.embargoend	2050-12-30	-
dc.ucuenca.version	Versión publicada	-
dc.ucuenca.embargointerno	2050-12-30	-
dc.ucuenca.areaconocimientounescoamplio	06 - Información y Comunicación (TIC)	-
dc.ucuenca.afiliacion	Santos, D., Universidad de Cuenca, Departamento de Ciencias de la Computación, Cuenca, Ecuador	-
dc.ucuenca.afiliacion	Auquilla, A., Universidad de Cuenca, Departamento de Ciencias de la Computación, Cuenca, Ecuador	-
dc.ucuenca.afiliacion	Siguenza, L., Universidad de Cuenca, Departamento de Ciencias de la Computación, Cuenca, Ecuador	-
dc.ucuenca.afiliacion	Peña, M., Universidad de Cuenca, Dirección de Investigación, Cuenca, Ecuador	-
dc.ucuenca.correspondencia	Santos Leon, David Enrique, david.santos@ucuenca.edu.ec	-
dc.ucuenca.volumen	Volumen 1456	-
dc.ucuenca.indicebibliografico	SCOPUS	-
dc.ucuenca.factorimpacto	0.160	-
dc.ucuenca.cuartil	Q4	-
dc.ucuenca.numerocitaciones	0	-
dc.ucuenca.areaconocimientofrascatiamplio	2. Ingeniería y Tecnología	-
dc.ucuenca.pais	ECUADOR	-
dc.ucuenca.conferencia	Tecnologías de la Información y Comunicación 2021, TICEC 2021	-
dc.ucuenca.areaconocimientofrascatiespecifico	2.11 Otras Ingenierias y Tecnologías	-
dc.ucuenca.areaconocimientofrascatidetallado	2.11.2 Otras Ingenierias y Tecnologías	-
dc.ucuenca.areaconocimientounescoespecifico	061 - Información y Comunicación (TIC)	-
dc.ucuenca.areaconocimientounescodetallado	0612 - Base de Datos, Diseno y Administración de Redes	-
dc.ucuenca.fechainicioconferencia	2021-11-23	-
dc.ucuenca.fechafinconferencia	2021-11-25	-
dc.ucuenca.organizadorconferencia	CEDIA Y Universidad Politécnica Salesiana	-
dc.ucuenca.comiteorganizadorconferencia	Cecilia Paredes, Padre Juan Cárdenas Tapia, Juan Pablo Carvallo Vega, Germania Rodríguez, Efraín Fonseca, Juan Pablo Salgado y Marcos Orellana Cordero.	-
dc.ucuenca.urifuente	https://www.springer.com/series/7899?detailsPage=contentItemPage&CIPageCounter=466612	-
dc.contributor.ponente	Santos Leon, David Enrique	-
Appears in Collections:	Artículos

Files in This Item:

File	Description	Size	Format
documento.pdf Until 2050-12-30	document	1.73 MB	Adobe PDF	View/Open Request a copy

This item is protected by original copyright

Show simple item record

Centro de Documentacion Regional "Juan Bautista Vázquez"

Biblioteca Campus Central		Biblioteca Campus Salud		Biblioteca Campus Yanuncay
Av. 12 de Abril y Calle Agustín Cueva, Telf: 4051000 Ext. 1311, 1312, 1313, 1314. Horario de atención: Lunes-Viernes: 07H00-21H00. Sábados: 08H00-12H00		Av. El Paraíso 3-52, detrás del Hospital Regional "Vicente Corral Moscoso", Telf: 4051000 Ext. 3144. Horario de atención: Lunes-Viernes: 07H00-19H00		Av. 12 de Octubre y Diego de Tapia, antiguo Colegio Orientalista, Telf: 4051000 Ext. 3535 2810706 Ext. 116. Horario de atención: Lunes-Viernes: 07H30-19H00