[ES] Buscar información en documentos científicos impresos es un reto problemático que recientemente ha recibido atención especial por parte de la comunidad de
investigación de Reconocimiento de Formas. Las Expresiones ...[+]
[ES] Buscar información en documentos científicos impresos es un reto problemático que recientemente ha recibido atención especial por parte de la comunidad de
investigación de Reconocimiento de Formas. Las Expresiones Matemáticas son
elementos complejos que aparecen en documentos cientificos, y desarrollar técnicas para localizarlas y reconocerlas requiere preparar data sets que pueden ser
utilizados como punto de referencia. La mayoría de las técnicas actuales para
lidiar con Expresiones Matemáticas están basadas en técnicas de Reconocimiento de Formas y Aprendizaje Automático y por tanto, estos data sets tienen que
ser preparados con información sobre el ground-truth para entrenamiento y test
automático. Sin embargo, preparar data sets grandes es muy costoso y requiere
mucho tiempo. Este proyecto introduce un data set de documentos científicos que
ha sido preparado con el fin de reconocer y buscar Expresiones Matemáticas. Este
data set ha sido generado automáticamente a partir de la versión LATEX de los documentos y consecuentemente puede ser aumentado fácilmente. El ground-truth
incluye la posición a nivel de página, la versión LATEX de las Expresiones Matemáticas integradas y aisladas del texto y la secuencia de símbolos representados
como unicode code points que se han utilizado para definir estas expresiones. En
base a este data set, se han extraído estadísticas como por ejemplo el número total
y el tipo de las expresiones, el número medio de expresiones por documento y las
frecuencias de distribución de todo el conjunto de expresiones. En este documento también se introduce un experimento de clasificación de símbolos matemáticos
que puede ser utilizado como punto de partida.
[-]
[EN] Searching information in printed scientific documents is a challenging problem that has recently received special attention from the Pattern Recognition research community. Mathematical Expressions are complex elements ...[+]
[EN] Searching information in printed scientific documents is a challenging problem that has recently received special attention from the Pattern Recognition research community. Mathematical Expressions are complex elements that appear
in scientific documents, and developing techniques for locating and recognizing
them requires preparation of data sets that can be used as benchmarks. Most
of the current techniques for dealing with Mathematical Expressions are based
in Machine Intelligent techniques and therefore these data sets have to be prepared with ground-truth information for automatic training and testing. However preparing large data sets with ground-truth is a very expensive and timeconsuming task. This project introduces a data set of scientific documents that has
been prepared for Mathematical Expression recognition and searching. This data
set has been automatically generated from the LATEX version of the documents
and consequently can be enlarged easily. The ground-truth includes the position
at page level, the LATEX version for Mathematical Expressions both embedded in
the text and displayed and the sequence of mathematical symbols represented
as unicode code points used to define these expressions. Based on this data set,
statistics such as the total number and type of expressions, the average number
of expressions per document and their frequency distribution were extracted. A
baseline classification experiment with mathematical symbols from this data set
is also reported in this paper.
[-]
|