A Methodological Framework for Creating Large-Scale Corpus for Natural Language Processing Models

Santos Leon, David Enrique; Auquilla Sangolqui, Andres Vinicio; Siguenza Guzman, Lorena Catalina; Peña Ortega, Mario Patricio

Please use this identifier to cite or link to this item: http://dspace.ucuenca.edu.ec/handle/123456789/37768

Title:	A Methodological Framework for Creating Large-Scale Corpus for Natural Language Processing Models
Authors:	Santos Leon, David Enrique Auquilla Sangolqui, Andres Vinicio Siguenza Guzman, Lorena Catalina Peña Ortega, Mario Patricio
metadata.dc.ucuenca.correspondencia:	Santos Leon, David Enrique, david.santos@ucuenca.edu.ec
Keywords:	Corpus construction Corpus in Spanish Large-scale corpus Methodological framework Supplies for NLP
metadata.dc.ucuenca.areaconocimientofrascatiamplio:	2. Ingeniería y Tecnología
metadata.dc.ucuenca.areaconocimientofrascatidetallado:	2.11.2 Otras Ingenierias y Tecnologías
metadata.dc.ucuenca.areaconocimientofrascatiespecifico:	2.11 Otras Ingenierias y Tecnologías
metadata.dc.ucuenca.areaconocimientounescoamplio:	06 - Información y Comunicación (TIC)
metadata.dc.ucuenca.areaconocimientounescodetallado:	0612 - Base de Datos, Diseno y Administración de Redes
metadata.dc.ucuenca.areaconocimientounescoespecifico:	061 - Información y Comunicación (TIC)
Issue Date:	2021
metadata.dc.ucuenca.embargoend:	30-Dec-2050
metadata.dc.ucuenca.volumen:	Volumen 1456
metadata.dc.source:	Communications in Computer and Information Science
metadata.dc.identifier.doi:	10.1007/978-3-030-89941-7_7
Publisher:	Springer
metadata.dc.description.city:	Guayaquil
metadata.dc.type:	ARTÍCULO DE CONFERENCIA
Abstract:	Currently, there is a boom in introducing Machine Learning models to various aspects of everyday life. A relevant field consists of Natural Language Processing (NLP) that seeks to model human language. A key and basic component for these models to learn properly consists of the data. This article proposes a methodological framework for constructing a large-scale corpus to feed NLP models. The development of this framework emerges from the problem of finding inputs in languages other than English to feed NLP models. With an approach focused on producing a high-quality resource, the construction phases were designed along with the considerations that must be taken. The stages implemented consist of the corpus characterization to be obtained, collecting documents, cleaning, translation, storage, and evaluation. The proposed approach implemented automatic translators to take advantage of the vast amount of English literature and implemented through non-cost libraries. Finally, a case study was developed, resulting in a corpus in Spanish with more than 170,000 documents within a specific domain, i.e., opinions on textile products. Through the evaluations carried out, it is established that the proposed framework can build a large-scale and high-quality corpus.
Description:	Actualmente, hay un auge en la introducción de modelos de Machine Learning en varios aspectos de la vida cotidiana. Un campo relevante es el Procesamiento del Lenguaje Natural (PNL) que busca modelar el lenguaje humano. Un componente clave y básico para que estos modelos aprendan correctamente son los datos. Este artículo propone un marco metodológico para la construcción de un corpus a gran escala para alimentar modelos de PNL. El desarrollo de este marco surge del problema de encontrar insumos en idiomas distintos del inglés para alimentar los modelos de PNL. Con un enfoque enfocado a producir un recurso de alta calidad, se diseñaron las fases de construcción junto con las consideraciones que se deben tomar. Las etapas implementadas consisten en la caracterización del corpus a obtener, recolección de documentos, limpieza, traducción, almacenamiento y evaluación. El enfoque propuesto implementó traductores automáticos para aprovechar la gran cantidad de literatura en inglés y se implementó a través de bibliotecas gratuitas. Finalmente, se desarrolló un estudio de caso que resultó en un corpus en español con más de 170.000 documentos dentro de un dominio específico, es decir, opiniones sobre productos textiles. A través de las evaluaciones realizadas, se establece que el marco propuesto puede construir un corpus de gran escala y calidad.
URI:	https://link.springer.com/chapter/10.1007/978-3-030-89941-7_7
metadata.dc.ucuenca.urifuente:	https://www.springer.com/series/7899?detailsPage=contentItemPage&CIPageCounter=466612
ISBN:	000-0000-00-000-0
ISSN:	1865-0929
Appears in Collections:	Artículos

Files in This Item:

File	Description	Size	Format
documento.pdf Until 2050-12-30	document	1.73 MB	Adobe PDF	View/Open Request a copy

This item is protected by original copyright

Show full item record

Centro de Documentacion Regional "Juan Bautista Vázquez"

Biblioteca Campus Central		Biblioteca Campus Salud		Biblioteca Campus Yanuncay
Av. 12 de Abril y Calle Agustín Cueva, Telf: 4051000 Ext. 1311, 1312, 1313, 1314. Horario de atención: Lunes-Viernes: 07H00-21H00. Sábados: 08H00-12H00		Av. El Paraíso 3-52, detrás del Hospital Regional "Vicente Corral Moscoso", Telf: 4051000 Ext. 3144. Horario de atención: Lunes-Viernes: 07H00-19H00		Av. 12 de Octubre y Diego de Tapia, antiguo Colegio Orientalista, Telf: 4051000 Ext. 3535 2810706 Ext. 116. Horario de atención: Lunes-Viernes: 07H30-19H00