Extracción de información de imágenes de pasaportes a partir de los índices probabilísticos

Dionís Ros, Alejandro

Identificarse

Buscar en RiuNet

Listar

Todo RiuNet
Esta colección

Mi cuenta

Acceder

Estadísticas

Ver Estadísticas de uso

Ayuda RiuNet

Admin. UPV

Compartir/Enviar a

Citas

Estadísticas

Extracción de información de imágenes de pasaportes a partir de los índices probabilísticos

Mostrar el registro sencillo del ítem

Ficheros en el ítem

Nombre: Dionis - Extraccion ...

Tamaño: 4.884Mb

Formato: PDF

Abrir

dc.contributor.advisor	Benedí Ruiz, José Miguel	es_ES
dc.contributor.advisor	Sánchez Peiró, Joan Andreu	es_ES
dc.contributor.author	Dionís Ros, Alejandro	es_ES
dc.date.accessioned	2022-10-13T12:30:35Z
dc.date.available	2022-10-13T12:30:35Z
dc.date.created	2022-09-21
dc.date.issued	2022-10-13	es_ES
dc.identifier.uri	http://hdl.handle.net/10251/187631
dc.description.abstract	[CA] Al llarg dels segles s’han produït grans quantitats de text manuscrit. Malgrat els innombrables esforços realitzats per a fer accessibles aquests documents, les imatges en brut són en gran manera inútils per al seu propòsit principal l’extracció d’informació continguda en el text de les imatges del document. A causa d’això, existeix un creixent interés en els mètodes automàtics que permeten als usuaris buscar informació textual en aquestes imatges. Recentment, s’ha introduït un nou enfocament per a buscar paraules en col·leccions massives d’imatges històriques de documents manuscrits. Per a reduir el temps de cerca en la fase d’explotació, es proposa una solució en dues fases. En la primera fase (“offline“), es calculen les probabilitats a posteriori de les paraules, índexs probabilístics (IP), a partir del procés de reconeixement de text manuscrit. En una segona fase (“en línia“), els IP s’utilitzen per a la indexació i cerca de paraules en la col·lecció. Els IP són una representació extraordinàriament més compacta que les pròpies imatges i per tant és l’únic resultat que es pot mantindre. En aquest treball es proposa la construcció d’un sistema que permeta l’extracció de la informació rellevant a partir dels IP obtinguts d’un corpus. El procés d’extracció de la informació es realitzarà mitjançant informació geomètrica continguda en els IP. El corpus està format per imatges extretes del control de passaports i data dels anys 30 del segle passat. Comprovarem el seu rendiment mesurant la taxa d’error comparant-ho amb la referència.	es_ES
dc.description.abstract	[ES] A lo largo de los siglos se han producido grandes cantidades de texto manuscrito. A pesar de los innumerables esfuerzos realizados para hacer accesibles estos documentos, las imágenes en bruto son en gran medida inútiles para su propósito principal la extracción de información contenida en el texto de las imágenes del documento. Debido a ello, existe un creciente interés en los métodos automáticos que permitan a los usuarios buscar información textual en estas imágenes. Recientemente, se ha introducido un nuevo enfoque para buscar palabras en colecciones masivas de imágenes históricas de documentos manuscritos. Para reducir el tiempo de búsqueda en la fase de explotación, se propone una solución en dos fases. En la primera fase (“offline“), se calculan las probabilidades a posteriori de las palabras, índices probabilísticos (IP), a partir del proceso de reconocimiento de texto manuscrito. En una segunda fase (“online“), los IP se utilizan para la indexación y búsqueda de palabras en la colección. Los IP son una representación extraordinariamente más compacta que las propias imágenes y por tanto es el único resultado que se puede mantener. En este trabajo se propone la construcción de un sistema que permita la extracción de la información relevante a partir de los IP obtenidos de un corpus. El proceso de extracción de la información se realizará mediante información geométrica contenida en los IP. El corpus está formado por imágenes extraídas del control de pasaportes y data de los años 30 del siglo pasado. Comprobaremos su rendimiento midiendo la tasa de error comparándolo con la referencia.	es_ES
dc.description.abstract	[EN] Large amounts of handwritten text have been produced over the centuries. Despite countless efforts to make these documents accessible, raw images are largely useless for their primary purpose of information retrieval given in the text of the document images. Due to this, there is a fast-growing interest in automatic methods that allow users to search for textual information in these images. Recently, a new approach has been introduced to searching words in massive collections of historical handwritten document images. To reduce the search time in the exploitation phase, a two-phase solution is proposed. In the first phase (“offline“), the posterior probabilities of the words, probabilistic indices (PI), are calculated from the handwritten text recognition process. In a second phase (“online“), the IPs are used for indexing and searching for words in the collection. The IPs are an extraordinarily more compact representation than the images themselves and therefore it is the only result that can be maintained. This work proposes the construction of a system that allows the extraction of relevant information from the IPs obtained from a corpus. The information extraction process will be carried out using geometric information contained in the IPs. The corpus is made up of images taken from passport control and dates back to the 1930s. We will check its performance by measuring the error rate comparing it with the reference.	es_ES
dc.format.extent	44	es_ES
dc.language	Español	es_ES
dc.publisher	Universitat Politècnica de València	es_ES
dc.rights	Reconocimiento - No comercial - Compartir igual (by-nc-sa)	es_ES
dc.subject	Reconocimiento de texto manuscrito	es_ES
dc.subject	Extracción de información	es_ES
dc.subject	Índices probabilísticos	es_ES
dc.subject	Handwritten text recognition	es_ES
dc.subject	Information retrieval	es_ES
dc.subject	Probabilistic indexes	es_ES
dc.subject.classification	LENGUAJES Y SISTEMAS INFORMATICOS	es_ES
dc.subject.other	Grado en Ingeniería Informática-Grau en Enginyeria Informàtica	es_ES
dc.title	Extracción de información de imágenes de pasaportes a partir de los índices probabilísticos	es_ES
dc.title.alternative	Information retrieval of passport images from probabilistic indexes	es_ES
dc.title.alternative	Extracció d'informació d'imatges de passaports a partir dels índexs probabilístics	es_ES
dc.type	Proyecto/Trabajo fin de carrera/grado	es_ES
dc.rights.accessRights	Abierto	es_ES
dc.contributor.affiliation	Universitat Politècnica de València. Departamento de Sistemas Informáticos y Computación - Departament de Sistemes Informàtics i Computació	es_ES
dc.contributor.affiliation	Universitat Politècnica de València. Escola Tècnica Superior d'Enginyeria Informàtica	es_ES
dc.description.bibliographicCitation	Dionís Ros, A. (2022). Extracción de información de imágenes de pasaportes a partir de los índices probabilísticos. Universitat Politècnica de València. http://hdl.handle.net/10251/187631	es_ES
dc.description.accrualMethod	TFGM	es_ES
dc.relation.pasarela	TFGM\150075	es_ES

Este ítem aparece en la(s) siguiente(s) colección(ones)

ETSINF - Trabajos académicos [5160]
Escola Tècnica Superior d'Enginyeria Informàtica

Mostrar el registro sencillo del ítem

Extracción de información de imágenes de pasaportes a partir de los índices probabilísticos

RiuNet: Repositorio Institucional de la Universidad Politécnica de Valencia

Buscar en RiuNet

Listar

Todo RiuNet

Esta colección

Mi cuenta

Estadísticas

Ayuda RiuNet

Admin. UPV

Compartir/Enviar a

Citas

Estadísticas

Extracción de información de imágenes de pasaportes a partir de los índices probabilísticos

Ficheros en el ítem

Este ítem aparece en la(s) siguiente(s) colección(ones)