Construcción de un corpus de gran escala en el idioma español cuyos documentos reflejen opiniones respecto a productos textiles

Santos León, David Enrique

Please use this identifier to cite or link to this item: http://dspace.ucuenca.edu.ec/handle/123456789/37303

Full metadata record

DC Field	Value	Language
dc.contributor.advisor	Auquilla Sangolquí, Andrés Vinicio	-
dc.contributor.author	Santos León, David Enrique	-
dc.date.accessioned	2021-11-08T16:28:59Z	-
dc.date.available	2021-11-08T16:28:59Z	-
dc.date.issued	2021-11-08	-
dc.identifier.uri	http://dspace.ucuenca.edu.ec/handle/123456789/37303	-
dc.description	Actualmente, existe un auge en introducir modelos de Aprendizaje Automático a varios aspectos de la vida cotidiana. Un campo de relevancia consiste en el Procesamiento del Lenguaje Natural (NLP) que busca modelar al lenguaje humano. La dificultad de entrenar a modelos que aprendan del lenguaje, es alta. Un componente clave y básico para que estas inteligencias aprendan de forma adecuada consiste en los datos, que para el caso de NLP, se encuentran mayoritariamente en inglés. El presente proyecto de investigación surge de la problemática de encontrar insumos de gran escala, en idiomas diferentes al inglés, para alimentar a modelos de Aprendizaje Profundo que produzcan textos de forma automática. Se han generado cuatro resultados principales: 1) Una metodología para construir corpus de gran escala, con facilidad de escalar a diferentes dominios e idiomas, 2) Un corpus en español, dentro del dominio de comentarios de productos textiles, con más de 170 mil documentos que obtuvo buenos resultados de evaluaciones humanas y automáticas, 3) Un sistema computacional que automatizó la construcción del corpus desde el principio al fin, desde la recolección de los documentos hasta su evaluación, y 4) resultados de línea base de un modelo generacional que sirven como punto de referencia para futuras investigaciones dentro de la generación automática de textos dentro del dominio textil	en_US
dc.description.abstract	Currently, there is a boom in introducing Machine Learning models to various aspects of everyday life. A relevant field consists of Natural Language Processing (NLP) that seeks to model human language. The difficulty of training models to learn a language is high. A key and basic component for these intelligences to learn properly consists of the data, which in the case of NLP, is mostly in English. This research project arises from the problem of finding large-scale inputs, in languages other than English, to feed Deep Learning models that produce texts automatically. Four main results have been generated: 1) A methodology to build a large-scale corpus, easily scalable to different domains and languages, 2) A corpus in Spanish, within the domain of comments on textile products, with more than 170 thousand documents that obtained good results from human and automatic evaluations, 3) A computational system that automated the construction of the corpus from beginning to end, from the collection of documents to their evaluation, and 4) baseline results of a generational model that serve as a point of reference for future research within the automatic generation of texts within the textile domain	en_US
dc.format	application/pdf	en_US
dc.format.extent	72 páginas	en_US
dc.language.iso	spa	en_US
dc.publisher	Universidad de Cuenca	en_US
dc.relation.ispartofseries	TS;285	-
dc.subject	Ingeniería en Sistemas	en_US
dc.subject	Sistema informático	en_US
dc.subject	Datos estadísticos	en_US
dc.subject	Productos textiles	en_US
dc.subject.other	Redes informaticas	en_US
dc.title	Construcción de un corpus de gran escala en el idioma español cuyos documentos reflejen opiniones respecto a productos textiles	en_US
dc.type	bachelorThesis	en_US
dc.description.degree	Ingeniero de Sistemas	en_US
dc.description.city	Cuenca	en_US
dc.ucuenca.id	0103557369	en_US
dc.ucuenca.idautor	0104997218	en_US
dc.ucuenca.version	submittedVersion	en_US
dc.ucuenca.areaconocimientounescoamplio	33 Ciencias Tecnológicas	en_US
dc.ucuenca.correspondencia	david.santos1687@gmail.com	en_US
dc.ucuenca.areaconocimientounescoespecifico	3304 Tecnología de los Ordenadores	en_US
dc.ucuenca.areaconocimientounescodetallado	3304.05 Sistemas de Reconocimiento de Caracteres	en_US
dc.ucuenca.titulouniforme	Construcción de un Corpus de Gran Escala en el Idioma Español cuyos Documentos Reflejen Opiniones Respecto a Productos Textiles	en_US
dc.rights.accessRights	openAccess	en_US
dc.ucuenca.responsablerecepcion	Naula Morocho María de Lourdes	en_US
Appears in Collections:	Tesis de Pregrado

Files in This Item:

File	Description	Size	Format
Trabajo de Titulación.pdf	Versión presentada (texto completo)	4.62 MB	Adobe PDF	View/Open

This item is protected by original copyright

View License

Show simple item record

Centro de Documentacion Regional "Juan Bautista Vázquez"

Biblioteca Campus Central		Biblioteca Campus Salud		Biblioteca Campus Yanuncay
Av. 12 de Abril y Calle Agustín Cueva, Telf: 4051000 Ext. 1311, 1312, 1313, 1314. Horario de atención: Lunes-Viernes: 07H00-21H00. Sábados: 08H00-12H00		Av. El Paraíso 3-52, detrás del Hospital Regional "Vicente Corral Moscoso", Telf: 4051000 Ext. 3144. Horario de atención: Lunes-Viernes: 07H00-19H00		Av. 12 de Octubre y Diego de Tapia, antiguo Colegio Orientalista, Telf: 4051000 Ext. 3535 2810706 Ext. 116. Horario de atención: Lunes-Viernes: 07H30-19H00