Mostrar el registro sencillo del ítem
dc.contributor.advisor | Benedí Ruiz, José Miguel | es_ES |
dc.contributor.advisor | Sánchez Peiró, Joan Andreu | es_ES |
dc.contributor.author | Dionís Ros, Alejandro | es_ES |
dc.date.accessioned | 2022-10-13T12:30:35Z | |
dc.date.available | 2022-10-13T12:30:35Z | |
dc.date.created | 2022-09-21 | |
dc.date.issued | 2022-10-13 | es_ES |
dc.identifier.uri | http://hdl.handle.net/10251/187631 | |
dc.description.abstract | [CA] Al llarg dels segles s’han produït grans quantitats de text manuscrit. Malgrat els innombrables esforços realitzats per a fer accessibles aquests documents, les imatges en brut són en gran manera inútils per al seu propòsit principal l’extracció d’informació continguda en el text de les imatges del document. A causa d’això, existeix un creixent interés en els mètodes automàtics que permeten als usuaris buscar informació textual en aquestes imatges. Recentment, s’ha introduït un nou enfocament per a buscar paraules en col·leccions massives d’imatges històriques de documents manuscrits. Per a reduir el temps de cerca en la fase d’explotació, es proposa una solució en dues fases. En la primera fase (“offline“), es calculen les probabilitats a posteriori de les paraules, índexs probabilístics (IP), a partir del procés de reconeixement de text manuscrit. En una segona fase (“en línia“), els IP s’utilitzen per a la indexació i cerca de paraules en la col·lecció. Els IP són una representació extraordinàriament més compacta que les pròpies imatges i per tant és l’únic resultat que es pot mantindre. En aquest treball es proposa la construcció d’un sistema que permeta l’extracció de la informació rellevant a partir dels IP obtinguts d’un corpus. El procés d’extracció de la informació es realitzarà mitjançant informació geomètrica continguda en els IP. El corpus està format per imatges extretes del control de passaports i data dels anys 30 del segle passat. Comprovarem el seu rendiment mesurant la taxa d’error comparant-ho amb la referència. | es_ES |
dc.description.abstract | [ES] A lo largo de los siglos se han producido grandes cantidades de texto manuscrito. A pesar de los innumerables esfuerzos realizados para hacer accesibles estos documentos, las imágenes en bruto son en gran medida inútiles para su propósito principal la extracción de información contenida en el texto de las imágenes del documento. Debido a ello, existe un creciente interés en los métodos automáticos que permitan a los usuarios buscar información textual en estas imágenes. Recientemente, se ha introducido un nuevo enfoque para buscar palabras en colecciones masivas de imágenes históricas de documentos manuscritos. Para reducir el tiempo de búsqueda en la fase de explotación, se propone una solución en dos fases. En la primera fase (“offline“), se calculan las probabilidades a posteriori de las palabras, índices probabilísticos (IP), a partir del proceso de reconocimiento de texto manuscrito. En una segunda fase (“online“), los IP se utilizan para la indexación y búsqueda de palabras en la colección. Los IP son una representación extraordinariamente más compacta que las propias imágenes y por tanto es el único resultado que se puede mantener. En este trabajo se propone la construcción de un sistema que permita la extracción de la información relevante a partir de los IP obtenidos de un corpus. El proceso de extracción de la información se realizará mediante información geométrica contenida en los IP. El corpus está formado por imágenes extraídas del control de pasaportes y data de los años 30 del siglo pasado. Comprobaremos su rendimiento midiendo la tasa de error comparándolo con la referencia. | es_ES |
dc.description.abstract | [EN] Large amounts of handwritten text have been produced over the centuries. Despite countless efforts to make these documents accessible, raw images are largely useless for their primary purpose of information retrieval given in the text of the document images. Due to this, there is a fast-growing interest in automatic methods that allow users to search for textual information in these images. Recently, a new approach has been introduced to searching words in massive collections of historical handwritten document images. To reduce the search time in the exploitation phase, a two-phase solution is proposed. In the first phase (“offline“), the posterior probabilities of the words, probabilistic indices (PI), are calculated from the handwritten text recognition process. In a second phase (“online“), the IPs are used for indexing and searching for words in the collection. The IPs are an extraordinarily more compact representation than the images themselves and therefore it is the only result that can be maintained. This work proposes the construction of a system that allows the extraction of relevant information from the IPs obtained from a corpus. The information extraction process will be carried out using geometric information contained in the IPs. The corpus is made up of images taken from passport control and dates back to the 1930s. We will check its performance by measuring the error rate comparing it with the reference. | es_ES |
dc.format.extent | 44 | es_ES |
dc.language | Español | es_ES |
dc.publisher | Universitat Politècnica de València | es_ES |
dc.rights | Reconocimiento - No comercial - Compartir igual (by-nc-sa) | es_ES |
dc.subject | Reconocimiento de texto manuscrito | es_ES |
dc.subject | Extracción de información | es_ES |
dc.subject | Índices probabilísticos | es_ES |
dc.subject | Handwritten text recognition | es_ES |
dc.subject | Information retrieval | es_ES |
dc.subject | Probabilistic indexes | es_ES |
dc.subject.classification | LENGUAJES Y SISTEMAS INFORMATICOS | es_ES |
dc.subject.other | Grado en Ingeniería Informática-Grau en Enginyeria Informàtica | es_ES |
dc.title | Extracción de información de imágenes de pasaportes a partir de los índices probabilísticos | es_ES |
dc.title.alternative | Information retrieval of passport images from probabilistic indexes | es_ES |
dc.title.alternative | Extracció d'informació d'imatges de passaports a partir dels índexs probabilístics | es_ES |
dc.type | Proyecto/Trabajo fin de carrera/grado | es_ES |
dc.rights.accessRights | Abierto | es_ES |
dc.contributor.affiliation | Universitat Politècnica de València. Departamento de Sistemas Informáticos y Computación - Departament de Sistemes Informàtics i Computació | es_ES |
dc.contributor.affiliation | Universitat Politècnica de València. Escola Tècnica Superior d'Enginyeria Informàtica | es_ES |
dc.description.bibliographicCitation | Dionís Ros, A. (2022). Extracción de información de imágenes de pasaportes a partir de los índices probabilísticos. Universitat Politècnica de València. http://hdl.handle.net/10251/187631 | es_ES |
dc.description.accrualMethod | TFGM | es_ES |
dc.relation.pasarela | TFGM\150075 | es_ES |