Resumen:
|
[ES] Los archivos históricos así como otras instituciones de patrimonio cultural han estado
digitalizando sus colecciones de documentos históricos con el fin de hacerlas accesible a
través de Internet al público en ...[+]
[ES] Los archivos históricos así como otras instituciones de patrimonio cultural han estado
digitalizando sus colecciones de documentos históricos con el fin de hacerlas accesible a
través de Internet al público en general. Sin embargo, la mayor parte de las imágenes de
los documentos digitalizados carecen de transcripción, por lo que el acceso a su contenido
textual no es posible.
En los últimos años, en el Centro PRHLT de la UPV se ha desarrollado una tecnología para la indexación probabilística de colecciones de estas imágenes (no transcritas). La
principal aplicación de estos índices es facilitar la búsqueda de información textual en la
colección de imágenes. El sistema de indexación desarrollado genera una tabla en la cual
se indexa cada palabra con todas sus posibles localizaciones en el documento. Específicamente, cada entrada de la tabla define una palabra con información de su localización:
número de página y posición en la página, y una medida de certeza (o confianza) calculada a partir de la probabilidad de aparición de dicha palabra en esa localización de la
imagen.
La disponibilidad de sistemas como este abre un nuevo horizonte en el marco de las
humanidades y en particular en el estudio de la historia. No obstante, para una mayor
flexibilidad en estas aplicaciones es necesario dotar a los sistemas de búsqueda de capacidades similares a las de los buscadores tradicionales. En particular, se ha permitido
a los usuarios formular sus consultas mediante expresiones regulares simples, así como
búsquedas aproximadas; es decir, palabras similares a las consultadas. Por ejemplo, para
buscar la palabra "France", ejemplos de consultas basadas en expresión regular podrían
ser ”Fran. ∗ ” o ”. ∗ ranc. ∗ ”. Así mismo, para una búsqueda aproximada se podría formular alguna las siguientes consultas: ”Francia”, ” f rance”, ” f ranc”, etc.
Durante el proyecto se han explorado diferentes técnicas para realizar búsquedas
aproximadas y finalmente se han obtenido resultados favorables tanto a nivel de tiempo como a nivel de consumo de memoria. De esta forma, podemos concluir que se ha
logrado ampliar la funcionalidad del sistema con un consumo de recursos moderado.
[-]
[EN] Historical archives, as well as other cultural heritage institutes, have been digitizing
their collections of historical documents in order to make them accessible via the Internet
to the general public. However, ...[+]
[EN] Historical archives, as well as other cultural heritage institutes, have been digitizing
their collections of historical documents in order to make them accessible via the Internet
to the general public. However, most of the images in the digitized documents lack of
transcription, so access to their textual content is not possible.
In recent years, technology has been developed at the UPV, in the PRHLT Center for
the probabilistic indexing of collections of these images (not transcribed). The main application of these indexes is to facilitate the search for textual information in the image
collection. The developed indexing system generates a table in which each word is indexed with all its possible locations in the document. Specifically, each table entry defines
a word with information on its location: page number and position on the page, and a
measure of certainty (or confidence) calculated from the probability of the appearance of
said word in that location of the image.
The availability of systems like this opens a new horizon in the humanities framework and in particular in the study of history. However, for greater flexibility in these
applications, it is necessary to provide search systems with capabilities similar to those
of traditional search engines. In particular, there is a need to allow users to formulate
their queries using simple regular expressions, as well as approximate searches; that is,
words similar to those consulted. For example, to search for the word "France", examples
of regular expression-based queries might be ”Fran. ∗ ”, or ”. ∗ ran. ∗ ”. Likewise, for an
approximate search, the following queries could be made: ”Francia”, ” f rance”, ” f ranc”,
etc.
During this project several techniques to perform approximate search have been explored and finally, we have achieved good results in terms of time performance with
reasonable memory consumption. Therefore, we can conclude that we have improved
the flexibility of the system with moderate memory usage.
[-]
|