Approximate search for textual information in images of historical manuscripts using simple regular expression queries

Andrés Moreno, José

Identificarse

Buscar en RiuNet

Listar

Todo RiuNet
Esta colección

Mi cuenta

Acceder

Estadísticas

Ver Estadísticas de uso

Ayuda RiuNet

Admin. UPV

Compartir/Enviar a

Citas

Estadísticas

Approximate search for textual information in images of historical manuscripts using simple regular expression queries

Mostrar el registro sencillo del ítem

Ficheros en el ítem

Nombre: Andrés - Búsqueda ...

Tamaño: 2.600Mb

Formato: PDF

Abrir

dc.contributor.advisor	Vidal Ruiz, Enrique	es_ES
dc.contributor.advisor	Toselli, Alejandro Héctor	es_ES
dc.contributor.author	Andrés Moreno, José	es_ES
dc.date.accessioned	2020-09-22T09:06:35Z
dc.date.available	2020-09-22T09:06:35Z
dc.date.created	2020-07-13
dc.date.issued	2020-09-22	es_ES
dc.identifier.uri	http://hdl.handle.net/10251/150524
dc.description.abstract	[ES] Los archivos históricos así como otras instituciones de patrimonio cultural han estado digitalizando sus colecciones de documentos históricos con el fin de hacerlas accesible a través de Internet al público en general. Sin embargo, la mayor parte de las imágenes de los documentos digitalizados carecen de transcripción, por lo que el acceso a su contenido textual no es posible. En los últimos años, en el Centro PRHLT de la UPV se ha desarrollado una tecnología para la indexación probabilística de colecciones de estas imágenes (no transcritas). La principal aplicación de estos índices es facilitar la búsqueda de información textual en la colección de imágenes. El sistema de indexación desarrollado genera una tabla en la cual se indexa cada palabra con todas sus posibles localizaciones en el documento. Específicamente, cada entrada de la tabla define una palabra con información de su localización: número de página y posición en la página, y una medida de certeza (o confianza) calculada a partir de la probabilidad de aparición de dicha palabra en esa localización de la imagen. La disponibilidad de sistemas como este abre un nuevo horizonte en el marco de las humanidades y en particular en el estudio de la historia. No obstante, para una mayor flexibilidad en estas aplicaciones es necesario dotar a los sistemas de búsqueda de capacidades similares a las de los buscadores tradicionales. En particular, se ha permitido a los usuarios formular sus consultas mediante expresiones regulares simples, así como búsquedas aproximadas; es decir, palabras similares a las consultadas. Por ejemplo, para buscar la palabra "France", ejemplos de consultas basadas en expresión regular podrían ser ”Fran. ∗ ” o ”. ∗ ranc. ∗ ”. Así mismo, para una búsqueda aproximada se podría formular alguna las siguientes consultas: ”Francia”, ” f rance”, ” f ranc”, etc. Durante el proyecto se han explorado diferentes técnicas para realizar búsquedas aproximadas y finalmente se han obtenido resultados favorables tanto a nivel de tiempo como a nivel de consumo de memoria. De esta forma, podemos concluir que se ha logrado ampliar la funcionalidad del sistema con un consumo de recursos moderado.	es_ES
dc.description.abstract	[EN] Historical archives, as well as other cultural heritage institutes, have been digitizing their collections of historical documents in order to make them accessible via the Internet to the general public. However, most of the images in the digitized documents lack of transcription, so access to their textual content is not possible. In recent years, technology has been developed at the UPV, in the PRHLT Center for the probabilistic indexing of collections of these images (not transcribed). The main application of these indexes is to facilitate the search for textual information in the image collection. The developed indexing system generates a table in which each word is indexed with all its possible locations in the document. Specifically, each table entry defines a word with information on its location: page number and position on the page, and a measure of certainty (or confidence) calculated from the probability of the appearance of said word in that location of the image. The availability of systems like this opens a new horizon in the humanities framework and in particular in the study of history. However, for greater flexibility in these applications, it is necessary to provide search systems with capabilities similar to those of traditional search engines. In particular, there is a need to allow users to formulate their queries using simple regular expressions, as well as approximate searches; that is, words similar to those consulted. For example, to search for the word "France", examples of regular expression-based queries might be ”Fran. ∗ ”, or ”. ∗ ran. ∗ ”. Likewise, for an approximate search, the following queries could be made: ”Francia”, ” f rance”, ” f ranc”, etc. During this project several techniques to perform approximate search have been explored and finally, we have achieved good results in terms of time performance with reasonable memory consumption. Therefore, we can conclude that we have improved the flexibility of the system with moderate memory usage.	es_ES
dc.format.extent	52	es_ES
dc.language	Inglés	es_ES
dc.publisher	Universitat Politècnica de València	es_ES
dc.rights	Reconocimiento - No comercial (by-nc)	es_ES
dc.subject	Handwritten Text Image Processing	es_ES
dc.subject	Probabilistic Word Idexing	es_ES
dc.subject	Information Search and Retrieval	es_ES
dc.subject	Regular Expressions	es_ES
dc.subject	Edit Distance	es_ES
dc.subject	Fast Search Algorithms.	es_ES
dc.subject	Procesado de Imágenes de Texto Manuscrito	es_ES
dc.subject	Indexación Probabilística de Palabras	es_ES
dc.subject	Búsqueda y Recuperación de la Información	es_ES
dc.subject	Expresiones Regulares	es_ES
dc.subject	Distancia de Edición	es_ES
dc.subject	Algoritmos Rápidos de Búsqueda	es_ES
dc.subject.classification	LENGUAJES Y SISTEMAS INFORMATICOS	es_ES
dc.subject.other	Grado en Ingeniería Informática-Grau en Enginyeria Informàtica	es_ES
dc.title	Approximate search for textual information in images of historical manuscripts using simple regular expression queries	es_ES
dc.title.alternative	Búsqueda aproximada de información textual en imágenes de documentos manuscritos históricos mediante consultas basadas en expresiones regulares simples	es_ES
dc.type	Proyecto/Trabajo fin de carrera/grado	es_ES
dc.rights.accessRights	Abierto	es_ES
dc.contributor.affiliation	Universitat Politècnica de València. Departamento de Sistemas Informáticos y Computación - Departament de Sistemes Informàtics i Computació	es_ES
dc.contributor.affiliation	Universitat Politècnica de València. Escola Tècnica Superior d'Enginyeria Informàtica	es_ES
dc.description.bibliographicCitation	Andrés Moreno, J. (2020). Approximate search for textual information in images of historical manuscripts using simple regular expression queries. http://hdl.handle.net/10251/150524	es_ES
dc.description.accrualMethod	TFGM	es_ES
dc.relation.pasarela	TFGM\129718	es_ES

Este ítem aparece en la(s) siguiente(s) colección(ones)

ETSINF - Trabajos académicos [5174]
Escola Tècnica Superior d'Enginyeria Informàtica

Mostrar el registro sencillo del ítem

Approximate search for textual information in images of historical manuscripts using simple regular expression queries

RiuNet: Repositorio Institucional de la Universidad Politécnica de Valencia

Buscar en RiuNet

Listar

Todo RiuNet

Esta colección

Mi cuenta

Estadísticas

Ayuda RiuNet

Admin. UPV

Compartir/Enviar a

Citas

Estadísticas

Approximate search for textual information in images of historical manuscripts using simple regular expression queries

Ficheros en el ítem

Este ítem aparece en la(s) siguiente(s) colección(ones)