Mostrar el registro sencillo del ítem
dc.contributor.advisor | Vidal Ruiz, Enrique | es_ES |
dc.contributor.author | Andrés Moreno, José | es_ES |
dc.date.accessioned | 2021-09-17T13:15:32Z | |
dc.date.available | 2021-09-17T13:15:32Z | |
dc.date.created | 2021-07-22 | |
dc.date.issued | 2021-09-17 | es_ES |
dc.identifier.uri | http://hdl.handle.net/10251/172740 | |
dc.description.abstract | [ES] Actualmente, archivos de todo el mundo están digitalizando grandes colecciones de documentos manuscritos con el fin de preservarlos y facilitar su difusión a investigadores y usuarios generales. Este hecho está motivando una gran evolución en las técnicas de reconocimiento de texto manuscrito (HTR por sus siglas en inglés), que permiten acceder a los contenidos textuales de las imágenes digitales mediante consultas de texto plano, de la misma manera que se hace con los libros y otros documentos digitales. Dentro del conjunto de documentos manuscritos sin transcripción, nos encontramos con que aproximadamente más de la mitad de los documentos se corresponden con documentos estructurados. Estos documentos contienen información de todo tipo: registros de nacimiento, de navegación, cuadernos de bitácora, etc. Toda esta información es a menudo imprescindible para usos jurídicos, estudios demográficos, estudios de la evolución del clima, etc. El objetivo de este trabajo es desarrollar nuevos métodos que permitan realizar búsquedas según el modelo "atributo-valor'" sobre estos documentos, donde los "atributos" son las cabeceras de las columnas y filas que forman la tabla y los "valores" son el resto de celdas de la tabla que no son cabecera. Para ello, vamos a basarnos en el marco de la indexación probabilistica (que está en cierto modo relacionado con el campo conocido como "keyword spotting"). En este marco, cada elemento de una imagen que se pueda interpretar como una palabra es detectado y almacenado, junto con su posición dentro de la imagen y la correspondiente probabilidad de relevancia. Así pues, empleando la información geométrica de los índices probabilísticos en conjunto con el uso de distribuciones gausianas, se pretende permitir realizar este tipo de búsquedas desde una perspectiva completamente probabilística. Bajo este enfoque, además de la búsqueda, se estudia la extracción de la información con objetivo de volcar contenidos específicos de las imágenes digitales a un formato compatible con bases de datos convencionales. En ambas tareas se han logrado resultados que superan el baseline propuesto. | es_ES |
dc.description.abstract | [EN] Currently, all archives around the world are digitising large collections of manuscripts, aiming to preserve and facilitate their dissemination to researchers and general users. This fact is motivating a fast evolution in handwritten text recognition (HTR) techniques, which allow accessing to the textual contents of digital images by means of plain-text queries, in the same way as with books and other digital documents. Among the huge set of manuscripts without transcription, more than half of the documents contain structured text. This is the case of birth records, navigation logs, etc. The information contained in these documents is often needed for legal matters, demographic studies, weather evolution studies, etc. The purpose of this work is to develop new methods that allow to perform searches according to the "attribute-value" model about these documents, where the "attributes" are, for example, column or row headers in tables and the "values" are the corresponding table cells. For this purpose, we will rely on the so-called probabilistic indexing framework (which in a certain sense is related with the field known as "keyword spotting"). In this framework, each element of an image that can be interpreted as a word is detected and stored, along with its position within the image and the correspondence relevance probability. This way, by using the geometric information available in the probabilistic indices and Gaussian distributions, we aim at allowing this type of search from a completely probabilistic perspective. Following this approach, in addition to information search, we study how to actually extract specific textual contents of the digital images in standard formats compatible with conventional databases. | es_ES |
dc.format.extent | 44 | es_ES |
dc.language | Inglés | es_ES |
dc.publisher | Universitat Politècnica de València | es_ES |
dc.rights | Reconocimiento - No comercial (by-nc) | es_ES |
dc.subject | Reconocimiento de Formas | es_ES |
dc.subject | Procesado de Imágenes | es_ES |
dc.subject | Documentos Estructurados Manuscritos | es_ES |
dc.subject | Indexación Probabilística y Búsqueda | es_ES |
dc.subject | Extracción de Información | es_ES |
dc.subject | Pattern Recognition | es_ES |
dc.subject | Image Processing | es_ES |
dc.subject | Structured Handwritten Documents | es_ES |
dc.subject | Probabilistic Indexing and Search | es_ES |
dc.subject | Information Extraction | es_ES |
dc.subject.classification | LENGUAJES Y SISTEMAS INFORMATICOS | es_ES |
dc.subject.other | Máster Universitario en Inteligencia Artificial, Reconocimiento de Formas e Imagen Digital-Màster Universitari en Intel·Ligència Artificial: Reconeixement de Formes i Imatge Digital | es_ES |
dc.title | Search and information extraction in handwritten tables | es_ES |
dc.type | Tesis de máster | es_ES |
dc.rights.accessRights | Abierto | es_ES |
dc.contributor.affiliation | Universitat Politècnica de València. Departamento de Sistemas Informáticos y Computación - Departament de Sistemes Informàtics i Computació | es_ES |
dc.description.bibliographicCitation | Andrés Moreno, J. (2021). Search and information extraction in handwritten tables. Universitat Politècnica de València. http://hdl.handle.net/10251/172740 | es_ES |
dc.description.accrualMethod | TFGM | es_ES |
dc.relation.pasarela | TFGM\145188 | es_ES |