[ES] En la actualidad existen grandes volúmenes de imágenes que representan textos
manuscritos digitalizados, estas imágenes han sido tomadas con dispositivos
completamente diferentes a causa del avance tecnológico a lo ...[+]
[ES] En la actualidad existen grandes volúmenes de imágenes que representan textos
manuscritos digitalizados, estas imágenes han sido tomadas con dispositivos
completamente diferentes a causa del avance tecnológico a lo largo de los años. Las
resoluciones de dichas imágenes son diferentes provocando que los reconocedores de
texto manuscrito presenten problemas para separar caracteres o palabras de la
imagen. Conocer la altura de la x de cualquier texto manuscrito independientemente
de la resolución que tenga la imagen nos permite corregir este problema. La altura de
la x se define como la altura del carácter sin tener en cuenta los trazos ascendentes ni
descendentes.
Inicialmente se realiza un estudio para obtener la altura de la x mediante la
transformada de Fourier, en el estudio no encontramos una relación directa entre la
resolución de la imagen y la altura de la x pero encontramos una solución para
segmentar el texto en líneas, realizando una segmentación en líneas y aplicando una
serie de algoritmos heurísticos obtenemos una estimación de la altura de la x.
Medimos la calidad de esta estimación mediante el error que nos proporciona una
experimentación sobre el corpus del ICDAR 2013 handwriting segmentation contest.
Este trabajo es pionero en este tema y es una base para mejoras y estudios
posteriores que permitan mejorar la estimación obtenida incrementando las
capacidades de los reconocedores de textos manuscritos.
[-]
[EN] Nowadays there exist large volumes of images that represent digital handwriten texts,
these images have been taken with different devices that vary in specifications, this
fact is due to technological development ...[+]
[EN] Nowadays there exist large volumes of images that represent digital handwriten texts,
these images have been taken with different devices that vary in specifications, this
fact is due to technological development over the years. Those pictures have different
resolutions, this causes manuscripted text recognizers to have issues in order to
separate characters or words in the image. Knowing the height of the X in every
manuscripted text independently of its image resolution allows us to correct this
problem. The X height is defined as the character’s height without having in account
ascendent traces, neither descendent ones.
Initially, a study is performed in order to obtain the X height by using Fourier transform.
In the study we don’t find any direct relation between image resolution and the X
height, but we find a solution to segmentate the text in lines; by performing a line by
line segmentation and applying some series of heuristic algorithms we obtain one
approximation of the X height. We measure the quality of this approximation by
observing the error that comes provided in one experimentation about one corpus of
the ICDAR 2013 handwriting segmentation contest.
This work is pioneer in this topic and sets up a basis to improvements and further
studies that will allow the improvement of the estimation obtained and that will
increment the capacities of manuscripted text recognizers.
[-]
|