Resumen:
|
[EN]
Handwriting recognition is a complex task and not always we obtain good results, either by the text conditions or by the kind of writing. That is why it remains research topic, where every time new techniques and ...[+]
[EN]
Handwriting recognition is a complex task and not always we obtain good results, either by the text conditions or by the kind of writing. That is why it remains research topic, where every time new techniques and methods are obtained . Currently text segmentation is done by line, as the recognition systems extract each line of the text and then analyze it. However, the extracted lines do not have to be coherent, since is normally does not coincide with a complete sentence. The goal of this project is to locate the punctuation marks found in the text to fragment it into complete sentences that have a coherent meaning. For this purpose, it has been decided to use a technique used to classify different types of images by using a convolutional neural network. The neural network has been trained with images of the different punctuation marks in order to recognize them throughout the text and to store the position in which they are. To make this project a manuscript of the year 1853 was used, from which the images of both the points and the commas have been obtained to generate the different corpus that have been used.
[-]
El reconocimiento de texto manuscrito (HTR) es una disciplina cuyo objetivo es la transcripción automática del contenido textual de documentos manuscritos. Habitualmente, el proceso de reconocimiento se realiza sobre las ...[+]
El reconocimiento de texto manuscrito (HTR) es una disciplina cuyo objetivo es la transcripción automática del contenido textual de documentos manuscritos. Habitualmente, el proceso de reconocimiento se realiza sobre las líneas segmentadas en una página, lo que implica que no se conservan estructuras sintácticas completas: las frases pueden quedar sin terminar, o terminar a mitad de la imagen procesada, o empezar de forma no natural, o presentar palabras cortadas al inicio y fin. Es de suponer que una entrada que consistiera en una frase presentaría mejores resultados. Para ello, sería necesario segmentar las páginas del documento en frases que pueden limitarse a una o varias líneas que habría que unir. La detección de frases podría aproximarse por la detección de ciertos carácteres clave como son los signos de puntuación, en particular los puntos. Así pues, el trabajo propuesto persigue detectar en una imagen de una página de texto manuscrito los signos de puntuación presentes, con el fin de aprovechar dicha detección para una posterior segmentación a nivel de frase de los contenidos de dicha página. El trabajo se limitará a la detección de los signos en un documento manuscrito en español del siglo XIX, empleando para ello diversos parámetros de extracción de características y modelos de clasificación, a fin de encontrar la combinación más apropiada para la resolución del problema.
[-]
|