Por favor, use este identificador para citar o enlazar este ítem:
http://dspace.ucuenca.edu.ec/handle/123456789/37303
Título : | Construcción de un corpus de gran escala en el idioma español cuyos documentos reflejen opiniones respecto a productos textiles |
Título Uniforme: | Construcción de un Corpus de Gran Escala en el Idioma Español cuyos Documentos Reflejen Opiniones Respecto a Productos Textiles |
Autor: | Santos León, David Enrique |
Director(es): | Auquilla Sangolquí, Andrés Vinicio |
Correspondencia: | david.santos1687@gmail.com |
Materia: | Redes informaticas |
Palabras clave : | Ingeniería en Sistemas Sistema informático Datos estadísticos Productos textiles |
Área de conocimiento UNESCO amplio: | 33 Ciencias Tecnológicas |
ÁArea de conocimiento UNESCO detallado: | 3304.05 Sistemas de Reconocimiento de Caracteres |
Área de conocimiento UNESCO específico: | 3304 Tecnología de los Ordenadores |
Fecha de publicación : | 8-nov-2021 |
Paginación: | 72 páginas |
Editor: | Universidad de Cuenca |
Ciudad: | Cuenca |
Código Interno : | TS;285 |
Tipo: | bachelorThesis |
Abstract: | Currently, there is a boom in introducing Machine Learning models to various aspects of everyday
life. A relevant field consists of Natural Language Processing (NLP) that seeks to model human
language. The difficulty of training models to learn a language is high. A key and basic component
for these intelligences to learn properly consists of the data, which in the case of NLP, is mostly in
English. This research project arises from the problem of finding large-scale inputs, in languages other
than English, to feed Deep Learning models that produce texts automatically. Four main results have
been generated: 1) A methodology to build a large-scale corpus, easily scalable to different domains
and languages, 2) A corpus in Spanish, within the domain of comments on textile products, with more
than 170 thousand documents that obtained good results from human and automatic evaluations, 3) A
computational system that automated the construction of the corpus from beginning to end, from the
collection of documents to their evaluation, and 4) baseline results of a generational model that serve as a
point of reference for future research within the automatic generation of texts within the textile domain |
Resumen : | Actualmente, existe un auge en introducir modelos de Aprendizaje Automático a varios aspectos
de la vida cotidiana. Un campo de relevancia consiste en el Procesamiento del Lenguaje Natural (NLP)
que busca modelar al lenguaje humano. La dificultad de entrenar a modelos que aprendan del lenguaje,
es alta. Un componente clave y básico para que estas inteligencias aprendan de forma adecuada consiste
en los datos, que para el caso de NLP, se encuentran mayoritariamente en inglés. El presente proyecto
de investigación surge de la problemática de encontrar insumos de gran escala, en idiomas diferentes al
inglés, para alimentar a modelos de Aprendizaje Profundo que produzcan textos de forma automática.
Se han generado cuatro resultados principales: 1) Una metodología para construir corpus de gran escala,
con facilidad de escalar a diferentes dominios e idiomas, 2) Un corpus en español, dentro del dominio
de comentarios de productos textiles, con más de 170 mil documentos que obtuvo buenos resultados de
evaluaciones humanas y automáticas, 3) Un sistema computacional que automatizó la construcción
del corpus desde el principio al fin, desde la recolección de los documentos hasta su evaluación, y 4)
resultados de línea base de un modelo generacional que sirven como punto de referencia para futuras
investigaciones dentro de la generación automática de textos dentro del dominio textil |
Grado Académico: | Ingeniero de Sistemas |
URI : | http://dspace.ucuenca.edu.ec/handle/123456789/37303 |
Aparece en las colecciones: | Tesis de Pregrado
|
Los ítems de DSpace están protegidos por copyright, con todos los derechos reservados, a menos que se indique lo contrario.