Anitei, Dan
Loading...
Organizational Units
Job Title
ORCID
Panorama page
person.page.panorama
Name
Email Address
5 results
Search Results
Now showing 1 - 5 of 5
- PublicationThe IBEM dataset: A large printed scientific image dataset for indexing and searching mathematical expressions(Elsevier, 2023-08) Anitei, Dan; Sánchez Peiró, Joan Andreu; Benedí Ruiz, José Miguel; Noya García, Ernesto; Departamento de Sistemas Informáticos y Computación; Escuela Técnica Superior de Ingeniería Informática; Centro de Investigación Pattern Recognition and Human Language Technology; GENERALITAT VALENCIANA; AGENCIA ESTATAL DE INVESTIGACION; Instituto Valenciano de Investigación en Inteligencia Artificial; Universitat Politècnica de València[EN] Searching for information in printed scientific documents is a challenging problem that has recently received special attention from the Pattern Recognition research community. Mathematical expressions are complex elements that appear in scientific documents, and developing techniques for locating and recognizing them requires the preparation of datasets that can be used as benchmarks. Most current techniques for dealing with mathematical expressions are based on Machine Learning techniques which require a large amount of annotated data. These datasets must be prepared with ground-truth information for automatic training and testing. However, preparing large datasets with ground-truth is a very expensive and time-consuming task. This paper introduces the IBEM dataset, consisting of scientific documents that have been prepared for mathematical expression recognition and searching. This dataset consists of 600 documents, more than 8200 page images with more than 160000 mathematical expressions. It has been automatically generated from the Image 1 version of the documents and can be enlarged easily. The ground-truth includes the position at the page level and the Image 1 transcript for mathematical expressions both embedded in the text and displayed. This paper also reports a baseline classification experiment with mathematical symbols and a baseline experiment of Mathematical Expression Recognition performed on the IBEM dataset. These experiments aim to provide some benchmarks for comparison purposes so that future users of the IBEM dataset can have a baseline framework.
- PublicationDiscriminative estimation of probabilistic context-free grammars for mathematical expression recognition and retrieval(Springer-Verlag, 2023-04-18) Noya García, Ernesto; Benedí Ruiz, José Miguel; Sánchez Peiró, Joan Andreu; Anitei, Dan; Departamento de Sistemas Informáticos y Computación; Escuela Técnica Superior de Ingeniería Informática; Centro de Investigación Pattern Recognition and Human Language Technology; GENERALITAT VALENCIANA; AGENCIA ESTATAL DE INVESTIGACION; Universitat Politècnica de València[EN] We present a discriminative learning algorithm for the probabilistic estimation of two-dimensional probabilistic context-free grammars (2D-PCFG) for mathematical expressions recognition and retrieval. This algorithm is based on a generalization of the H-criterion as the objective function and the growth transformations as the optimization method. For the development of the discriminative estimation algorithm, the N-best interpretations provided by the 2D-PCFG have been considered. Experimental results are reported on two available datasets: Im2Latex and IBEM. The first experiment compares the proposed discriminative estimation method with the classic Viterbi-based estimation method. The second one studies the performance of the estimated models depending on the length of the mathematical expressions and the number of admissible errors in the metric used.
- PublicationReconocimiento automático de un censo histórico impreso sin recursos lingüísticos(Universitat Politècnica de València, 2021-09-17) Anitei, Dan; Sánchez Peiró, Joan Andreu; Benedí Ruiz, José Miguel; Departamento de Sistemas Informáticos y Computación; Escuela Técnica Superior de Ingeniería Informática; Centro de Investigación Pattern Recognition and Human Language Technology; Fundación BBVA[ES] El reconocimiento automático de documentos históricos impresos es actualmente un problema resuelto para muchas colecciones de datos. Sin embargo, los sistemas de reconocimiento automático de documentos históricos impresos aún deben resolver varios obstáculos inherentes al trabajo con documentos antiguos. La degradación del papel o las manchas pueden aumentar la dificultad del correcto reconocimiento de los caracteres. No obstante, dichos problemas se pueden paliar utilizando recursos lingüísticos para entrenar buenos modelos de lenguaje que disminuyan la tasa de error de los caracteres. En cambio, hay muchas colecciones como la que se presenta en este trabajo, compuestas por tablas que contienen principalmente números y nombres propios, para las que no se dispone. En este trabajo se muestra que el reconocimiento automático puede realizarse con éxito para una colección de documentos sin utilizar ningún recurso lingüístico. Este proyecto cubre la extracción de información y el proceso de OCR dirigido, especialmente diseñados para el reconocimiento automático de un censo español del siglo XIX, registrado en documentos impresos. Muchos de los problemas relacionados con los documentos históricos se resuelven utilizando una combinación de técnicas clásicas de visión por computador y aprendizaje neuronal profundo. Los errores, como los caracteres mal reconocidos, son detectados y corregidos gracias a la información redundante que contiene el censo. Dada la importancia de este censo español para la realización de estudios demográficos, este trabajo da un paso más e introduce un modelo demostrador que facilita la investigación sobre este corpus mediante la indexación de los datos.
- PublicationDevelopment of a scalable database for recognition of printed mathemematical expressions(Universitat Politècnica de València, 2020-09-18) Anitei, Dan; Sánchez Peiró, Joan Andreu; Benedí Ruiz, José Miguel; Departamento de Sistemas Informáticos y Computación; Escuela Técnica Superior de Ingeniería Informática; Centro de Investigación Pattern Recognition and Human Language Technology; Agencia Estatal de Investigación; Generalitat Valenciana[ES] Buscar información en documentos científicos impresos es un reto problemático que recientemente ha recibido atención especial por parte de la comunidad de investigación de Reconocimiento de Formas. Las Expresiones Matemáticas son elementos complejos que aparecen en documentos cientificos, y desarrollar técnicas para localizarlas y reconocerlas requiere preparar data sets que pueden ser utilizados como punto de referencia. La mayoría de las técnicas actuales para lidiar con Expresiones Matemáticas están basadas en técnicas de Reconocimiento de Formas y Aprendizaje Automático y por tanto, estos data sets tienen que ser preparados con información sobre el ground-truth para entrenamiento y test automático. Sin embargo, preparar data sets grandes es muy costoso y requiere mucho tiempo. Este proyecto introduce un data set de documentos científicos que ha sido preparado con el fin de reconocer y buscar Expresiones Matemáticas. Este data set ha sido generado automáticamente a partir de la versión LATEX de los documentos y consecuentemente puede ser aumentado fácilmente. El ground-truth incluye la posición a nivel de página, la versión LATEX de las Expresiones Matemáticas integradas y aisladas del texto y la secuencia de símbolos representados como unicode code points que se han utilizado para definir estas expresiones. En base a este data set, se han extraído estadísticas como por ejemplo el número total y el tipo de las expresiones, el número medio de expresiones por documento y las frecuencias de distribución de todo el conjunto de expresiones. En este documento también se introduce un experimento de clasificación de símbolos matemáticos que puede ser utilizado como punto de partida.
- PublicationICDAR 2021 competition on mathematical formula detection(Springer, 2021-09-10) Anitei, Dan; Sánchez Peiró, Joan Andreu; Fuentes-López, José Manuel; Paredes Palacios, Roberto; Benedí Ruiz, José Miguel; Departamento de Sistemas Informáticos y Computación; Escuela Técnica Superior de Ingeniería Informática; Centro de Investigación Pattern Recognition and Human Language Technology[EN] This paper introduces the Competition on Mathematical Formula Detection that was organized for the ICDAR 2021. The main goal of this competition was to provide the researchers and practitioners a common framework to research on this topic. A large dataset was prepared for this contest where the GT was automatically generated and manually reviewed. Fourteen participants submitted their results for this competition and these results show that there is still room for improvement especially for the detection of embedded mathematical expressions.