Logo Repositorio Institucional

Please use this identifier to cite or link to this item: http://dspace.ucuenca.edu.ec/handle/123456789/42509
Title: Analizar y aplicar técnicas de tratamiento de imágenes de periódicos antiguos del Ecuador para mejoras en el proceso de reconocimiento de textos (OCR).
Authors: Ochoa Arevalo, Kevin Ismael
Quituisaca Suconota, Lucia Carolina
metadata.dc.contributor.advisor: Saquicela Galarza, Víctor Hugo
metadata.dc.description.uri: 
0000-0002-2438-9220
metadata.dc.subject.other: CIUC::Informática::Procesamiento
Keywords: Ingeniería de Sistemas
Reconocimiento óptico
Preservación documental
Digitalización de documentos
Issue Date: 26-Jul-2023
metadata.dc.format.extent: 62 páginas
Publisher: Universidad de Cuenca
metadata.dc.type: bachelorThesis
Abstract: 
Around the world, projects are being carried out to digitize historical documents with the aim of preserving the information contained in them. Many of these projects use Optical Character Recognition (OCR). However, there are currently no such projects in Ecuador. During the digitization process, challenges arise that affect the quality of the information obtained through OCR, due to problems directly related to the image, such as stains, folds, lighting, among others. Therefore, it is necessary to find solutions to counteract these problems and obtain a better quality of information. In this research work we propose to analyze image processing techniques to improve OCR processes with images of old newspapers from Ecuador. A process of comparison and analysis of the data obtained from OCR is carried out, focusing on the number of words correctly recognized in the images that were treated and untreated, with the objective of identifying improvements in the results. The processing techniques, for ease of analysis, are divided into three groups: traditional techniques, segmentation techniques and super-resolution techniques. The results demonstrate that super-resolution processes, in particular the LAPSRN technique, show a significant improvement in OCR results. These findings have important implications for the field of preservation and access to historical information in Ecuador.
Description: 
En el mundo, se están llevando a cabo proyectos de digitalización de documentos históricos con el objetivo de preservar la información contenida en ellos. Muchos de estos proyectos utilizan el Reconocimiento Óptico de Caracteres (OCR, por sus siglas en inglés). Sin embargo, actualmente no existen proyectos de este tipo en Ecuador. Durante el proceso de digitalización, surgen desafíos que afectan la calidad de la información obtenida mediante OCR, debido a problemas relacionados directamente con la imagen, como manchas, dobleces, iluminación, entre otros. Por lo tanto, es necesario buscar soluciones para contrarrestar estos problemas y obtener una mejor calidad de información. En este trabajo de investigación se propone analizar técnicas de procesamiento de imágenes para mejorar los procesos de OCR con imágenes de periódicos antiguos del Ecuador. Se lleva a cabo un proceso de comparación y análisis de los datos obtenidos del OCR, centrándose en la cantidad de palabras correctamente reconocidas en las imágenes que fueron tratadas y no tratadas, con el objetivo de identificar mejoras en los resultados. Las técnicas de procesamiento, para facilitar el análisis, se dividen en tres grupos: técnicas tradicionales, técnicas de segmentación y técnicas de super resolución. Los resultados demuestran que los procesos de super resolución, en particular la técnica LAPSRN, presentan una mejora significativa en los resultados del OCR. Estos hallazgos tienen importantes implicaciones para el campo de la preservación y acceso a la información histórica en Ecuador.
URI: http://dspace.ucuenca.edu.ec/handle/123456789/42509
metadata.dc.relation.ispartof: TS;309
Appears in Collections:Tesis de Pregrado

Files in This Item:
File Description SizeFormat 
Trabajo-de-Titulación..pdfVersión presentada (texto completo)16.15 MBAdobe PDFView/Open


This item is protected by original copyright



This item is licensed under a Creative Commons License Creative Commons

 

Centro de Documentacion Regional "Juan Bautista Vázquez"

Biblioteca Campus Central Biblioteca Campus Salud Biblioteca Campus Yanuncay
Av. 12 de Abril y Calle Agustín Cueva, Telf: 4051000 Ext. 1311, 1312, 1313, 1314. Horario de atención: Lunes-Viernes: 07H00-21H00. Sábados: 08H00-12H00 Av. El Paraíso 3-52, detrás del Hospital Regional "Vicente Corral Moscoso", Telf: 4051000 Ext. 3144. Horario de atención: Lunes-Viernes: 07H00-19H00 Av. 12 de Octubre y Diego de Tapia, antiguo Colegio Orientalista, Telf: 4051000 Ext. 3535 2810706 Ext. 116. Horario de atención: Lunes-Viernes: 07H30-19H00