Resumen:
|
[ES] Actualmente, archivos de todo el mundo están digitalizando
grandes colecciones de documentos manuscritos con el fin de
preservarlos y facilitar su difusión a investigadores y usuarios
generales. Este hecho está ...[+]
[ES] Actualmente, archivos de todo el mundo están digitalizando
grandes colecciones de documentos manuscritos con el fin de
preservarlos y facilitar su difusión a investigadores y usuarios
generales. Este hecho está motivando una gran evolución en las
técnicas de reconocimiento de texto manuscrito (HTR por sus
siglas en inglés), que permiten acceder a los contenidos
textuales de las imágenes digitales mediante consultas de texto
plano, de la misma manera que se hace con los libros y otros
documentos digitales.
Dentro del conjunto de documentos manuscritos sin transcripción,
nos encontramos con que aproximadamente más de la mitad de los
documentos se corresponden con documentos estructurados. Estos
documentos contienen información de todo tipo: registros de
nacimiento, de navegación, cuadernos de bitácora, etc. Toda esta
información es a menudo imprescindible para usos jurídicos,
estudios demográficos, estudios de la evolución del clima, etc.
El objetivo de este trabajo es desarrollar nuevos métodos que
permitan realizar búsquedas según el modelo "atributo-valor'"
sobre estos documentos, donde los "atributos" son las cabeceras
de las columnas y filas que forman la tabla y los "valores" son el resto
de celdas de la tabla que no son cabecera. Para ello, vamos a
basarnos en el marco de la indexación probabilistica (que está en
cierto modo relacionado con el campo conocido como "keyword
spotting"). En este marco, cada elemento de una imagen que se
pueda interpretar como una palabra es detectado y almacenado,
junto con su posición dentro de la imagen y la correspondiente
probabilidad de relevancia.
Así pues, empleando la información geométrica de los índices probabilísticos
en conjunto con el uso de distribuciones gausianas, se pretende
permitir realizar este tipo de búsquedas desde una
perspectiva completamente probabilística. Bajo este enfoque,
además de la búsqueda, se estudia la extracción de la
información con objetivo de volcar contenidos específicos de las
imágenes digitales a un formato compatible con bases de datos
convencionales. En ambas tareas se han logrado resultados que
superan el baseline propuesto.
[-]
[EN] Currently, all archives around the world are digitising large
collections of manuscripts, aiming to preserve and facilitate their
dissemination to researchers and general users. This fact is
motivating a fast ...[+]
[EN] Currently, all archives around the world are digitising large
collections of manuscripts, aiming to preserve and facilitate their
dissemination to researchers and general users. This fact is
motivating a fast evolution in handwritten text recognition (HTR)
techniques, which allow accessing to the textual contents of digital
images by means of plain-text queries, in the same way as with books
and other digital documents.
Among the huge set of manuscripts without transcription, more than half of the documents contain structured text. This is the case of
birth records, navigation logs, etc. The information contained in
these documents is often needed for legal matters, demographic
studies, weather evolution studies, etc.
The purpose of this work is to develop new methods that allow to
perform searches according to the "attribute-value" model about these
documents, where the "attributes" are, for example, column or row
headers in tables and the "values" are the corresponding table
cells. For this purpose, we will rely on the so-called
probabilistic indexing framework (which in a certain sense is related
with the field known as "keyword spotting"). In this framework, each
element of an image that can be interpreted as a word is detected and
stored, along with its position within the image and the
correspondence relevance probability.
This way, by using the geometric information available in the probabilistic indices
and Gaussian distributions, we aim at allowing this type of search from
a completely probabilistic perspective. Following this approach, in
addition to information search, we study how to actually extract
specific textual contents of the digital images in standard formats
compatible with conventional databases.
[-]
|