Title: | Analizar y aplicar técnicas de tratamiento de imágenes de periódicos antiguos del Ecuador para mejoras en el proceso de reconocimiento de textos (OCR). |
Authors: | Ochoa Arevalo, Kevin Ismael Quituisaca Suconota, Lucia Carolina |
metadata.dc.contributor.advisor: | Saquicela Galarza, Víctor Hugo |
metadata.dc.description.uri: | 0000-0002-2438-9220 |
metadata.dc.subject.other: | CIUC::Informática::Procesamiento |
Keywords: | Ingeniería de Sistemas Reconocimiento óptico Preservación documental Digitalización de documentos |
Issue Date: | 26-Jul-2023 |
metadata.dc.format.extent: | 62 páginas |
Publisher: | Universidad de Cuenca |
metadata.dc.type: | bachelorThesis |
Abstract: | Around the world, projects are being carried out to digitize historical documents
with the aim of preserving the information contained in them. Many of these projects
use Optical Character Recognition (OCR). However, there are currently no such projects in Ecuador. During the digitization process, challenges arise that affect the quality of the information obtained through OCR, due to problems directly related to the
image, such as stains, folds, lighting, among others. Therefore, it is necessary to find
solutions to counteract these problems and obtain a better quality of information.
In this research work we propose to analyze image processing techniques to improve OCR processes with images of old newspapers from Ecuador. A process of
comparison and analysis of the data obtained from OCR is carried out, focusing on
the number of words correctly recognized in the images that were treated and untreated, with the objective of identifying improvements in the results. The processing
techniques, for ease of analysis, are divided into three groups: traditional techniques,
segmentation techniques and super-resolution techniques.
The results demonstrate that super-resolution processes, in particular the LAPSRN
technique, show a significant improvement in OCR results. These findings have important implications for the field of preservation and access to historical information
in Ecuador. |
Description: | En el mundo, se están llevando a cabo proyectos de digitalización de documentos históricos con el objetivo de preservar la información contenida en ellos. Muchos
de estos proyectos utilizan el Reconocimiento Óptico de Caracteres (OCR, por sus
siglas en inglés). Sin embargo, actualmente no existen proyectos de este tipo en
Ecuador. Durante el proceso de digitalización, surgen desafíos que afectan la calidad de la información obtenida mediante OCR, debido a problemas relacionados
directamente con la imagen, como manchas, dobleces, iluminación, entre otros. Por
lo tanto, es necesario buscar soluciones para contrarrestar estos problemas y obtener una mejor calidad de información.
En este trabajo de investigación se propone analizar técnicas de procesamiento de
imágenes para mejorar los procesos de OCR con imágenes de periódicos antiguos
del Ecuador. Se lleva a cabo un proceso de comparación y análisis de los datos
obtenidos del OCR, centrándose en la cantidad de palabras correctamente reconocidas en las imágenes que fueron tratadas y no tratadas, con el objetivo de identificar
mejoras en los resultados. Las técnicas de procesamiento, para facilitar el análisis,
se dividen en tres grupos: técnicas tradicionales, técnicas de segmentación y técnicas de super resolución.
Los resultados demuestran que los procesos de super resolución, en particular la
técnica LAPSRN, presentan una mejora significativa en los resultados del OCR. Estos hallazgos tienen importantes implicaciones para el campo de la preservación y
acceso a la información histórica en Ecuador. |
URI: | http://dspace.ucuenca.edu.ec/handle/123456789/42509 |
metadata.dc.relation.ispartof: | TS;309 |
Appears in Collections: | Tesis de Pregrado
|