Publication:
A Methodological Framework for Creating Large-Scale Corpus for Natural Language Processing Models

dc.contributor.authorSantos Leon, David Enrique
dc.contributor.authorAuquilla Sangolquí, Andrés Vinicio
dc.contributor.authorSigüenza Guzmán, Lorena Catalina
dc.contributor.authorPeña Ortega, Mario Patricio
dc.contributor.ponenteSantos Leon, David Enrique
dc.date.accessioned2022-01-13T15:12:26Z
dc.date.available2022-01-13T15:12:26Z
dc.date.issued2021
dc.descriptionActualmente, hay un auge en la introducción de modelos de Machine Learning en varios aspectos de la vida cotidiana. Un campo relevante es el Procesamiento del Lenguaje Natural (PNL) que busca modelar el lenguaje humano. Un componente clave y básico para que estos modelos aprendan correctamente son los datos. Este artículo propone un marco metodológico para la construcción de un corpus a gran escala para alimentar modelos de PNL. El desarrollo de este marco surge del problema de encontrar insumos en idiomas distintos del inglés para alimentar los modelos de PNL. Con un enfoque enfocado a producir un recurso de alta calidad, se diseñaron las fases de construcción junto con las consideraciones que se deben tomar. Las etapas implementadas consisten en la caracterización del corpus a obtener, recolección de documentos, limpieza, traducción, almacenamiento y evaluación. El enfoque propuesto implementó traductores automáticos para aprovechar la gran cantidad de literatura en inglés y se implementó a través de bibliotecas gratuitas. Finalmente, se desarrolló un estudio de caso que resultó en un corpus en español con más de 170.000 documentos dentro de un dominio específico, es decir, opiniones sobre productos textiles. A través de las evaluaciones realizadas, se establece que el marco propuesto puede construir un corpus de gran escala y calidad.
dc.description.abstractCurrently, there is a boom in introducing Machine Learning models to various aspects of everyday life. A relevant field consists of Natural Language Processing (NLP) that seeks to model human language. A key and basic component for these models to learn properly consists of the data. This article proposes a methodological framework for constructing a large-scale corpus to feed NLP models. The development of this framework emerges from the problem of finding inputs in languages other than English to feed NLP models. With an approach focused on producing a high-quality resource, the construction phases were designed along with the considerations that must be taken. The stages implemented consist of the corpus characterization to be obtained, collecting documents, cleaning, translation, storage, and evaluation. The proposed approach implemented automatic translators to take advantage of the vast amount of English literature and implemented through non-cost libraries. Finally, a case study was developed, resulting in a corpus in Spanish with more than 170,000 documents within a specific domain, i.e., opinions on textile products. Through the evaluations carried out, it is established that the proposed framework can build a large-scale and high-quality corpus.
dc.description.cityGuayaquil
dc.identifier.doi10.1007/978-3-030-89941-7_7
dc.identifier.isbn000-0000-00-000-0
dc.identifier.issn1865-0929
dc.identifier.urihttps://www.scopus.com/record/display.uri?eid=2-s2.0-85121636802&origin=resultslist&sort=plf-f&src=s&sot=b&sdt=b&s=TITLE-ABS-KEY%28A+Methodological+Framework+for+Creating+Large-Scale+Corpus+for+Natural+Language+Processing+Models%29&sessionSearchId=13d8cdfb1ce81f52fdb938dc2c7e0d7d
dc.language.isoes_ES
dc.publisherSpringer
dc.sourceCommunications in Computer and Information Science
dc.subjectCorpus construction
dc.subjectCorpus in Spanish
dc.subjectLarge-scale corpus
dc.subjectMethodological framework
dc.subjectSupplies for NLP
dc.titleA Methodological Framework for Creating Large-Scale Corpus for Natural Language Processing Models
dc.typeARTÍCULO DE CONFERENCIA
dc.ucuenca.afiliacionSantos, D., Universidad de Cuenca, Departamento de Ciencias de la Computación, Cuenca, Ecuador
dc.ucuenca.afiliacionAuquilla, A., Universidad de Cuenca, Departamento de Ciencias de la Computación, Cuenca, Ecuador
dc.ucuenca.afiliacionSiguenza, L., Universidad de Cuenca, Departamento de Ciencias de la Computación, Cuenca, Ecuador
dc.ucuenca.afiliacionPeña, M., Universidad de Cuenca, Dirección de Investigación, Cuenca, Ecuador
dc.ucuenca.areaconocimientofrascatiamplio2. Ingeniería y Tecnología
dc.ucuenca.areaconocimientofrascatidetallado2.11.2 Otras Ingenierias y Tecnologías
dc.ucuenca.areaconocimientofrascatiespecifico2.11 Otras Ingenierias y Tecnologías
dc.ucuenca.areaconocimientounescoamplio06 - Información y Comunicación (TIC)
dc.ucuenca.areaconocimientounescodetallado0612 - Base de Datos, Diseno y Administración de Redes
dc.ucuenca.areaconocimientounescoespecifico061 - Información y Comunicación (TIC)
dc.ucuenca.comiteorganizadorconferenciaCecilia Paredes, Padre Juan Cárdenas Tapia, Juan Pablo Carvallo Vega, Germania Rodríguez, Efraín Fonseca, Juan Pablo Salgado y Marcos Orellana Cordero.
dc.ucuenca.conferenciaTecnologías de la Información y Comunicación 2021, TICEC 2021
dc.ucuenca.correspondenciaSantos Leon, David Enrique, david.santos@ucuenca.edu.ec
dc.ucuenca.cuartilQ4
dc.ucuenca.embargoend2050-12-30
dc.ucuenca.embargointerno2050-12-30
dc.ucuenca.factorimpacto0.160
dc.ucuenca.fechafinconferencia2021-11-25
dc.ucuenca.fechainicioconferencia2021-11-23
dc.ucuenca.idautor0104997218
dc.ucuenca.idautor0103557369
dc.ucuenca.idautor0102659687
dc.ucuenca.idautor0302168141
dc.ucuenca.indicebibliograficoSCOPUS
dc.ucuenca.organizadorconferenciaCEDIA, Universidad Politécnica Salesiana
dc.ucuenca.paisECUADOR
dc.ucuenca.urifuentehttps://www.springer.com/series/7899?detailsPage=contentItemPage&CIPageCounter=466612
dc.ucuenca.versionVersión publicada
dc.ucuenca.volumenVolumen 1456
dspace.entity.typePublication
relation.isAuthorOfPublicationa46c326f-f014-4ede-b508-808551f216df
relation.isAuthorOfPublicationf0d76cbd-0c21-4af0-8cfc-ef9ebd22ba4a
relation.isAuthorOfPublication365dd174-69d4-457a-80f4-0e34fe0b76e6
relation.isAuthorOfPublication.latestForDiscovery365dd174-69d4-457a-80f4-0e34fe0b76e6

Files

Original bundle

Now showing 1 - 1 of 1
Loading...
Thumbnail Image
Name:
documento.pdf
Size:
1.69 MB
Format:
Adobe Portable Document Format
Description:
document

Collections