[ES] En la actualidad existen grandes bases de datos de documentos
científicos impresos digitalizados, muchos de los cuales incluyen
expresiones matemáticas. La búsqueda de información textual en
estos documentos ...[+]
[ES] En la actualidad existen grandes bases de datos de documentos
científicos impresos digitalizados, muchos de los cuales incluyen
expresiones matemáticas. La búsqueda de información textual en
estos documentos es ya una posibilidad ampliamente explotada por los
motores de búsqueda de la exploradores más utilizados. Sin embargo,
la búsqueda mediante consultas en forma de expresiones matemáticas
de documentos científicos impresos digitalizados en grandes
colecciones es un campo apenas explorado. Los planteamientos que
actualmente se han usado para abordar este problema se basan
fundamentalmente en la búsqueda por similitud entre la imágenes lo
cual es completamente inviable para búsqueda en colecciones masivas
dado el elevado coste computacional de dichas aproximaciones.
En este trabajo se propone estudiar el desarrollo de técnicas de
indexación y búsqueda de expresiones matemáticas en grandes
colecciones de imágenes digitalizadas. Los modelos que permitirán
construir los índices de la colección y los modelos que permitirán
representarán la consulta se basarán en modelos estocásticos
estructurales capaces de dar cuenta de la ambigüedad que puede
surgir en el proceso de reconocimiento, debido a los problemas de
segmentación y a la propia ambigüedad que puede existir en las
expresiones matemáticas. La preparación de los índices
probabilísticos deberá incluir: medidas de confianza, estructuras de
datos en forma de árbol sintáctico para realizar búsquedas
estructurales y aprendizaje automático discriminativo de modelos
estructurales.
[-]
[EN] Nowadays there exist large databases of digitized printed scientific
documents, and many of them include mathematical expressions. The
searching of textual information in these documents is currently a
...[+]
[EN] Nowadays there exist large databases of digitized printed scientific
documents, and many of them include mathematical expressions. The
searching of textual information in these documents is currently a
possibility widely exploited by the search engines of the most used
web browsers. However, the searching in massive collections of
digitized printed scientific documents with queries that are
mathematical expressions is a research area scarcely explored. The
methods that currently have been researched for tackling this
problem are based on comparing images that is not realistic for
searching in massive collections given the high computational cost
of the above mentioned approaches.
In this TFM, we propose to research indexing and searching
techniques of mathematical expressions in large collections of
digitized images. The models that will allow us to build up the
indexes of the collection and the models que will allow us to
represent the query will be based on stochastic structural models
that will account for the ambiguity that can appear in the
recognition process, due to segmentation problems and due to the
ambiguity that the mathematical expression may have. The
preparation of the probabilistic indices should include: confidence
measures, data structures based on syntactic parse trees for
structural search, discriminative machine learning of structural
models.
[-]
|