Abstract:
|
[EN] The Handwriting Text Recognition (HTR) is principally oriented to re-
cognize text lines, that is, the transcription is realized analyzing each different
line of a text. In this framework the problem is that the ...[+]
[EN] The Handwriting Text Recognition (HTR) is principally oriented to re-
cognize text lines, that is, the transcription is realized analyzing each different
line of a text. In this framework the problem is that the lines can contain
pieces of sentences whose sense does not match with the grammatical struc-
ture of the handwriting text language, either by start or end by a splitted
word as to have points between the line boundaries.
In this work a new tool for HTR is presented as an alternative for current
lines recognition systems, changing lines for complete sentences. In this way
a better precision on the HTR system is expected because the sentence that
the system has to recognize follows a regular language structure.
With the final purpose of achieving the sentence recognition, it is ne-
cessary detect first the sentence boundaries, which is equivalent to recognize
punctuation. In this work a new technique for handwriting text image frag-
ments classification is proposed, in which fragments must be identified as
a punctuation mark or not. To do so, an ancient Spanish handwriting text
from XIX century will be used, obtaining labeled fragments from a forced
recognition. After that, the different classifiers will be trained and tested.
[-]
[ES] El reconocimiento de texto manuscrito (HTR) está fundamentalmente orientado al reconocimiento en las líneas de texto. Esto presenta el problema de que las líneas pueden recoger fragmentos de frases cuyo sentido no ...[+]
[ES] El reconocimiento de texto manuscrito (HTR) está fundamentalmente orientado al reconocimiento en las líneas de texto. Esto presenta el problema de que las líneas pueden recoger fragmentos de frases cuyo sentido no encaje en la estructura del idioma en que está escrito el texto, ya sea por iniciarse o finalizarse con una palabra partida como por tener puntos intermedios de fin e inicio de frase. Con el fin de conseguir una orientación del reconocimiento de frases, se hace necesario detectar los inicios y fin de frase en las líneas de texto, lo cual es equivalente a detectar signos de puntuación. En este trabajo se propone la exploración de diversas técnicas de clasificación de fragmentos de imagen de texto manuscrito que detecten si se da o no un signo de puntuación en dicho fragmento. Para ello se empleará un manuscrito en español del siglo XIX, debiendo obtenerse los fragmentos de imagen y sus etiquetas a través de reconocimiento forzado, y tras ello entrenar y probar los modelos de clasificación correspondientes.
[-]
|