- -

Extracción de información de imágenes de pasaportes a partir de los índices probabilísticos

RiuNet: Repositorio Institucional de la Universidad Politécnica de Valencia

Compartir/Enviar a

Citas

Estadísticas

  • Estadisticas de Uso

Extracción de información de imágenes de pasaportes a partir de los índices probabilísticos

Mostrar el registro sencillo del ítem

Ficheros en el ítem

dc.contributor.advisor Benedí Ruiz, José Miguel es_ES
dc.contributor.advisor Sánchez Peiró, Joan Andreu es_ES
dc.contributor.author Dionís Ros, Alejandro es_ES
dc.date.accessioned 2022-10-13T12:30:35Z
dc.date.available 2022-10-13T12:30:35Z
dc.date.created 2022-09-21
dc.date.issued 2022-10-13 es_ES
dc.identifier.uri http://hdl.handle.net/10251/187631
dc.description.abstract [CA] Al llarg dels segles s’han produït grans quantitats de text manuscrit. Malgrat els innombrables esforços realitzats per a fer accessibles aquests documents, les imatges en brut són en gran manera inútils per al seu propòsit principal l’extracció d’informació continguda en el text de les imatges del document. A causa d’això, existeix un creixent interés en els mètodes automàtics que permeten als usuaris buscar informació textual en aquestes imatges. Recentment, s’ha introduït un nou enfocament per a buscar paraules en col·leccions massives d’imatges històriques de documents manuscrits. Per a reduir el temps de cerca en la fase d’explotació, es proposa una solució en dues fases. En la primera fase (“offline“), es calculen les probabilitats a posteriori de les paraules, índexs probabilístics (IP), a partir del procés de reconeixement de text manuscrit. En una segona fase (“en línia“), els IP s’utilitzen per a la indexació i cerca de paraules en la col·lecció. Els IP són una representació extraordinàriament més compacta que les pròpies imatges i per tant és l’únic resultat que es pot mantindre. En aquest treball es proposa la construcció d’un sistema que permeta l’extracció de la informació rellevant a partir dels IP obtinguts d’un corpus. El procés d’extracció de la informació es realitzarà mitjançant informació geomètrica continguda en els IP. El corpus està format per imatges extretes del control de passaports i data dels anys 30 del segle passat. Comprovarem el seu rendiment mesurant la taxa d’error comparant-ho amb la referència. es_ES
dc.description.abstract [ES] A lo largo de los siglos se han producido grandes cantidades de texto manuscrito. A pesar de los innumerables esfuerzos realizados para hacer accesibles estos documentos, las imágenes en bruto son en gran medida inútiles para su propósito principal la extracción de información contenida en el texto de las imágenes del documento. Debido a ello, existe un creciente interés en los métodos automáticos que permitan a los usuarios buscar información textual en estas imágenes. Recientemente, se ha introducido un nuevo enfoque para buscar palabras en colecciones masivas de imágenes históricas de documentos manuscritos. Para reducir el tiempo de búsqueda en la fase de explotación, se propone una solución en dos fases. En la primera fase (“offline“), se calculan las probabilidades a posteriori de las palabras, índices probabilísticos (IP), a partir del proceso de reconocimiento de texto manuscrito. En una segunda fase (“online“), los IP se utilizan para la indexación y búsqueda de palabras en la colección. Los IP son una representación extraordinariamente más compacta que las propias imágenes y por tanto es el único resultado que se puede mantener. En este trabajo se propone la construcción de un sistema que permita la extracción de la información relevante a partir de los IP obtenidos de un corpus. El proceso de extracción de la información se realizará mediante información geométrica contenida en los IP. El corpus está formado por imágenes extraídas del control de pasaportes y data de los años 30 del siglo pasado. Comprobaremos su rendimiento midiendo la tasa de error comparándolo con la referencia. es_ES
dc.description.abstract [EN] Large amounts of handwritten text have been produced over the centuries. Despite countless efforts to make these documents accessible, raw images are largely useless for their primary purpose of information retrieval given in the text of the document images. Due to this, there is a fast-growing interest in automatic methods that allow users to search for textual information in these images. Recently, a new approach has been introduced to searching words in massive collections of historical handwritten document images. To reduce the search time in the exploitation phase, a two-phase solution is proposed. In the first phase (“offline“), the posterior probabilities of the words, probabilistic indices (PI), are calculated from the handwritten text recognition process. In a second phase (“online“), the IPs are used for indexing and searching for words in the collection. The IPs are an extraordinarily more compact representation than the images themselves and therefore it is the only result that can be maintained. This work proposes the construction of a system that allows the extraction of relevant information from the IPs obtained from a corpus. The information extraction process will be carried out using geometric information contained in the IPs. The corpus is made up of images taken from passport control and dates back to the 1930s. We will check its performance by measuring the error rate comparing it with the reference. es_ES
dc.format.extent 44 es_ES
dc.language Español es_ES
dc.publisher Universitat Politècnica de València es_ES
dc.rights Reconocimiento - No comercial - Compartir igual (by-nc-sa) es_ES
dc.subject Reconocimiento de texto manuscrito es_ES
dc.subject Extracción de información es_ES
dc.subject Índices probabilísticos es_ES
dc.subject Handwritten text recognition es_ES
dc.subject Information retrieval es_ES
dc.subject Probabilistic indexes es_ES
dc.subject.classification LENGUAJES Y SISTEMAS INFORMATICOS es_ES
dc.subject.other Grado en Ingeniería Informática-Grau en Enginyeria Informàtica es_ES
dc.title Extracción de información de imágenes de pasaportes a partir de los índices probabilísticos es_ES
dc.title.alternative Information retrieval of passport images from probabilistic indexes es_ES
dc.title.alternative Extracció d'informació d'imatges de passaports a partir dels índexs probabilístics es_ES
dc.type Proyecto/Trabajo fin de carrera/grado es_ES
dc.rights.accessRights Abierto es_ES
dc.contributor.affiliation Universitat Politècnica de València. Departamento de Sistemas Informáticos y Computación - Departament de Sistemes Informàtics i Computació es_ES
dc.contributor.affiliation Universitat Politècnica de València. Escola Tècnica Superior d'Enginyeria Informàtica es_ES
dc.description.bibliographicCitation Dionís Ros, A. (2022). Extracción de información de imágenes de pasaportes a partir de los índices probabilísticos. Universitat Politècnica de València. http://hdl.handle.net/10251/187631 es_ES
dc.description.accrualMethod TFGM es_ES
dc.relation.pasarela TFGM\150075 es_ES


Este ítem aparece en la(s) siguiente(s) colección(ones)

Mostrar el registro sencillo del ítem