Resumen:
|
[CA] Al llarg dels segles s’han produït grans quantitats de text manuscrit. Malgrat els innombrables esforços realitzats per a fer accessibles aquests documents, les imatges en
brut són en gran manera inútils per al seu ...[+]
[CA] Al llarg dels segles s’han produït grans quantitats de text manuscrit. Malgrat els innombrables esforços realitzats per a fer accessibles aquests documents, les imatges en
brut són en gran manera inútils per al seu propòsit principal l’extracció d’informació
continguda en el text de les imatges del document. A causa d’això, existeix un creixent
interés en els mètodes automàtics que permeten als usuaris buscar informació textual en
aquestes imatges.
Recentment, s’ha introduït un nou enfocament per a buscar paraules en col·leccions
massives d’imatges històriques de documents manuscrits. Per a reduir el temps de cerca
en la fase d’explotació, es proposa una solució en dues fases. En la primera fase (“offline“), es calculen les probabilitats a posteriori de les paraules, índexs probabilístics (IP),
a partir del procés de reconeixement de text manuscrit. En una segona fase (“en línia“),
els IP s’utilitzen per a la indexació i cerca de paraules en la col·lecció. Els IP són una representació extraordinàriament més compacta que les pròpies imatges i per tant és l’únic
resultat que es pot mantindre.
En aquest treball es proposa la construcció d’un sistema que permeta l’extracció de
la informació rellevant a partir dels IP obtinguts d’un corpus. El procés d’extracció de la
informació es realitzarà mitjançant informació geomètrica continguda en els IP. El corpus
està format per imatges extretes del control de passaports i data dels anys 30 del segle
passat. Comprovarem el seu rendiment mesurant la taxa d’error comparant-ho amb la
referència.
[-]
[ES] A lo largo de los siglos se han producido grandes cantidades de texto manuscrito. A
pesar de los innumerables esfuerzos realizados para hacer accesibles estos documentos,
las imágenes en bruto son en gran medida ...[+]
[ES] A lo largo de los siglos se han producido grandes cantidades de texto manuscrito. A
pesar de los innumerables esfuerzos realizados para hacer accesibles estos documentos,
las imágenes en bruto son en gran medida inútiles para su propósito principal la extracción de información contenida en el texto de las imágenes del documento. Debido a ello,
existe un creciente interés en los métodos automáticos que permitan a los usuarios buscar
información textual en estas imágenes.
Recientemente, se ha introducido un nuevo enfoque para buscar palabras en colecciones masivas de imágenes históricas de documentos manuscritos. Para reducir el tiempo
de búsqueda en la fase de explotación, se propone una solución en dos fases. En la primera fase (“offline“), se calculan las probabilidades a posteriori de las palabras, índices
probabilísticos (IP), a partir del proceso de reconocimiento de texto manuscrito. En una
segunda fase (“online“), los IP se utilizan para la indexación y búsqueda de palabras en
la colección. Los IP son una representación extraordinariamente más compacta que las
propias imágenes y por tanto es el único resultado que se puede mantener.
En este trabajo se propone la construcción de un sistema que permita la extracción
de la información relevante a partir de los IP obtenidos de un corpus. El proceso de extracción de la información se realizará mediante información geométrica contenida en
los IP. El corpus está formado por imágenes extraídas del control de pasaportes y data de
los años 30 del siglo pasado. Comprobaremos su rendimiento midiendo la tasa de error
comparándolo con la referencia.
[-]
[EN] Large amounts of handwritten text have been produced over the centuries. Despite
countless efforts to make these documents accessible, raw images are largely useless for
their primary purpose of information retrieval ...[+]
[EN] Large amounts of handwritten text have been produced over the centuries. Despite
countless efforts to make these documents accessible, raw images are largely useless for
their primary purpose of information retrieval given in the text of the document images.
Due to this, there is a fast-growing interest in automatic methods that allow users to
search for textual information in these images.
Recently, a new approach has been introduced to searching words in massive collections of historical handwritten document images. To reduce the search time in the
exploitation phase, a two-phase solution is proposed. In the first phase (“offline“), the
posterior probabilities of the words, probabilistic indices (PI), are calculated from the
handwritten text recognition process. In a second phase (“online“), the IPs are used for
indexing and searching for words in the collection. The IPs are an extraordinarily more
compact representation than the images themselves and therefore it is the only result that
can be maintained.
This work proposes the construction of a system that allows the extraction of relevant
information from the IPs obtained from a corpus. The information extraction process
will be carried out using geometric information contained in the IPs. The corpus is made
up of images taken from passport control and dates back to the 1930s. We will check its
performance by measuring the error rate comparing it with the reference.
[-]
|