Analizar y aplicar técnicas de tratamiento de imágenes de periódicos antiguos del Ecuador para mejoras en el proceso de reconocimiento de textos (OCR).

dc.contributor.advisorSaquicela Galarza, Víctor Hugo
dc.contributor.authorOchoa Arevalo, Kevin Ismael
dc.contributor.authorQuituisaca Suconota, Lucia Carolina
dc.date.accessioned2023-07-27T16:01:20Z
dc.date.available2023-07-27T16:01:20Z
dc.date.issued2023-07-26
dc.descriptionEn el mundo, se están llevando a cabo proyectos de digitalización de documentos históricos con el objetivo de preservar la información contenida en ellos. Muchos de estos proyectos utilizan el Reconocimiento Óptico de Caracteres (OCR, por sus siglas en inglés). Sin embargo, actualmente no existen proyectos de este tipo en Ecuador. Durante el proceso de digitalización, surgen desafíos que afectan la calidad de la información obtenida mediante OCR, debido a problemas relacionados directamente con la imagen, como manchas, dobleces, iluminación, entre otros. Por lo tanto, es necesario buscar soluciones para contrarrestar estos problemas y obtener una mejor calidad de información. En este trabajo de investigación se propone analizar técnicas de procesamiento de imágenes para mejorar los procesos de OCR con imágenes de periódicos antiguos del Ecuador. Se lleva a cabo un proceso de comparación y análisis de los datos obtenidos del OCR, centrándose en la cantidad de palabras correctamente reconocidas en las imágenes que fueron tratadas y no tratadas, con el objetivo de identificar mejoras en los resultados. Las técnicas de procesamiento, para facilitar el análisis, se dividen en tres grupos: técnicas tradicionales, técnicas de segmentación y técnicas de super resolución. Los resultados demuestran que los procesos de super resolución, en particular la técnica LAPSRN, presentan una mejora significativa en los resultados del OCR. Estos hallazgos tienen importantes implicaciones para el campo de la preservación y acceso a la información histórica en Ecuador.en_US
dc.description.abstractAround the world, projects are being carried out to digitize historical documents with the aim of preserving the information contained in them. Many of these projects use Optical Character Recognition (OCR). However, there are currently no such projects in Ecuador. During the digitization process, challenges arise that affect the quality of the information obtained through OCR, due to problems directly related to the image, such as stains, folds, lighting, among others. Therefore, it is necessary to find solutions to counteract these problems and obtain a better quality of information. In this research work we propose to analyze image processing techniques to improve OCR processes with images of old newspapers from Ecuador. A process of comparison and analysis of the data obtained from OCR is carried out, focusing on the number of words correctly recognized in the images that were treated and untreated, with the objective of identifying improvements in the results. The processing techniques, for ease of analysis, are divided into three groups: traditional techniques, segmentation techniques and super-resolution techniques. The results demonstrate that super-resolution processes, in particular the LAPSRN technique, show a significant improvement in OCR results. These findings have important implications for the field of preservation and access to historical information in Ecuador.en_US
dc.description.uri0000-0002-2438-9220en_US
dc.formatapplication/pdfen_US
dc.format.extent62 páginasen_US
dc.identifier.urihttp://dspace.ucuenca.edu.ec/handle/123456789/42509
dc.language.isospaen_US
dc.publisherUniversidad de Cuencaen_US
dc.relation.ispartofTS;309
dc.rightsAttribution-NonCommercial-NoDerivatives 4.0 Internacional*
dc.rights.accessRightsopenAccessen_US
dc.rights.urihttp://creativecommons.org/licenses/by-nc-nd/4.0/*
dc.subjectIngeniería en Sistemasen_US
dc.subjectReconocimiento ópticoen_US
dc.subjectPreservación documentalen_US
dc.subjectDigitalización de documentosen_US
dc.subject.otherCIUC::Informática::Procesamientoen_US
dc.titleAnalizar y aplicar técnicas de tratamiento de imágenes de periódicos antiguos del Ecuador para mejoras en el proceso de reconocimiento de textos (OCR).en_US
dc.typebachelorThesisen_US
dcterms.descriptionIngeniero en Ciencias de la Computaciónen_US
dcterms.spatialCuenca, Ecuadoren_US

Files

Original bundle

Now showing 1 - 1 of 1
Loading...
Thumbnail Image
Name:
Trabajo-de-Titulación..pdf
Size:
15.77 MB
Format:
Adobe Portable Document Format
Description:
Versión presentada (texto completo)

License bundle

Now showing 1 - 1 of 1
No Thumbnail Available
Name:
license.txt
Size:
1.71 KB
Format:
Item-specific license agreed upon to submission
Description: