Reconocimiento automático de un censo histórico impreso sin recursos lingüísticos

Anitei, Dan

RiuNet repositorio UPV
:
Docencia
:
Trabajos académicos
:
Servicio de alumnado - Trabajos académicos
:
Ver ítem

Identificarse

Buscar en RiuNet

Listar

Todo RiuNet
Esta colección

Mi cuenta

Acceder

Estadísticas

Ver Estadísticas de uso

Ayuda RiuNet

Admin. UPV

Compartir/Enviar a

Citas

Estadísticas

Reconocimiento automático de un censo histórico impreso sin recursos lingüísticos

Mostrar el registro sencillo del ítem

Ficheros en el ítem

Nombre: Anitei - Reconoci ...

Tamaño: 14.69Mb

Formato: PDF

Abrir

dc.contributor.advisor	Sánchez Peiró, Joan Andreu	es_ES
dc.contributor.advisor	Benedí Ruiz, José Miguel	es_ES
dc.contributor.author	Anitei, Dan	es_ES
dc.date.accessioned	2021-09-17T09:02:40Z
dc.date.available	2021-09-17T09:02:40Z
dc.date.created	2021-07-22
dc.date.issued	2021-09-17	es_ES
dc.identifier.uri	http://hdl.handle.net/10251/172694
dc.description.abstract	[ES] El reconocimiento automático de documentos históricos impresos es actualmente un problema resuelto para muchas colecciones de datos. Sin embargo, los sistemas de reconocimiento automático de documentos históricos impresos aún deben resolver varios obstáculos inherentes al trabajo con documentos antiguos. La degradación del papel o las manchas pueden aumentar la dificultad del correcto reconocimiento de los caracteres. No obstante, dichos problemas se pueden paliar utilizando recursos lingüísticos para entrenar buenos modelos de lenguaje que disminuyan la tasa de error de los caracteres. En cambio, hay muchas colecciones como la que se presenta en este trabajo, compuestas por tablas que contienen principalmente números y nombres propios, para las que no se dispone. En este trabajo se muestra que el reconocimiento automático puede realizarse con éxito para una colección de documentos sin utilizar ningún recurso lingüístico. Este proyecto cubre la extracción de información y el proceso de OCR dirigido, especialmente diseñados para el reconocimiento automático de un censo español del siglo XIX, registrado en documentos impresos. Muchos de los problemas relacionados con los documentos históricos se resuelven utilizando una combinación de técnicas clásicas de visión por computador y aprendizaje neuronal profundo. Los errores, como los caracteres mal reconocidos, son detectados y corregidos gracias a la información redundante que contiene el censo. Dada la importancia de este censo español para la realización de estudios demográficos, este trabajo da un paso más e introduce un modelo demostrador que facilita la investigación sobre este corpus mediante la indexación de los datos.	es_ES
dc.description.abstract	[EN] Automatic recognition of typeset historical documents is currently a solved problem for many collections of data. However, systems for automatic recognition of typeset historical documents still need to address several issues inherent to working with this kind of documents. Degradation of the paper or smudges can increase the difficulty of correctly recognizing characters, problems that can be alleviated by using linguistic resources for training good language models which decrease the character error rate. Nonetheless, there are many collections such as the one presented in this paper, composed of tables that contain mainly numbers and proper names, for which a language model is neither available nor useful. This paper illustrates that automatic recognition can be done successfully for a collection of documents without using any linguistic resources. The paper covers the information extraction and the targeted OCR process, specially designed for the automatic recognition of a Spanish census from the XIX century, registered in printed documents. Many of the problems related to historical documents are overcame by using a combination of classical computer vision techniques and deep learning. Errors, such as miss-recognized characters, are detected and corrected thanks to redundant information that the census contains. Given the importance of this Spanish census for conducting demographic studies, this paper goes a step forward and introduces a demonstrator model to facilitate researching on this corpus by indexing the data.	es_ES
dc.description.sponsorship	This work has been partially supported by the BBVA Fundation, as a collaboration between the PRHLT team in charge of the HisClima project and the ESPAREL project.	es_ES
dc.format.extent	75	es_ES
dc.language	Español	es_ES
dc.publisher	Universitat Politècnica de València	es_ES
dc.rights	Reconocimiento - Compartir igual (by-sa)	es_ES
dc.subject	Reconocimiento Óptico de Caracteres	es_ES
dc.subject	Visión por Computador	es_ES
dc.subject	Documentos Históricos Impresos	es_ES
dc.subject	Censo	es_ES
dc.subject	Optical Character Recognition	es_ES
dc.subject	Computer Vision	es_ES
dc.subject	Historical Printed Documents	es_ES
dc.subject	Census	es_ES
dc.subject.classification	LENGUAJES Y SISTEMAS INFORMATICOS	es_ES
dc.subject.other	Máster Universitario en Inteligencia Artificial, Reconocimiento de Formas e Imagen Digital-Màster Universitari en Intel·Ligència Artificial: Reconeixement de Formes i Imatge Digital	es_ES
dc.title	Reconocimiento automático de un censo histórico impreso sin recursos lingüísticos	es_ES
dc.type	Tesis de máster	es_ES
dc.rights.accessRights	Abierto	es_ES
dc.contributor.affiliation	Universitat Politècnica de València. Departamento de Sistemas Informáticos y Computación - Departament de Sistemes Informàtics i Computació	es_ES
dc.description.bibliographicCitation	Anitei, D. (2021). Reconocimiento automático de un censo histórico impreso sin recursos lingüísticos. Universitat Politècnica de València. http://hdl.handle.net/10251/172694	es_ES
dc.description.accrualMethod	TFGM	es_ES
dc.relation.pasarela	TFGM\145160	es_ES
dc.contributor.funder	Fundación BBVA	es_ES

Este ítem aparece en la(s) siguiente(s) colección(ones)

Servicio de alumnado - Trabajos académicos [7391]

Mostrar el registro sencillo del ítem

Reconocimiento automático de un censo histórico impreso sin recursos lingüísticos

RiuNet: Repositorio Institucional de la Universidad Politécnica de Valencia

Buscar en RiuNet

Listar

Todo RiuNet

Esta colección

Mi cuenta

Estadísticas

Ayuda RiuNet

Admin. UPV

Compartir/Enviar a

Citas

Estadísticas

Reconocimiento automático de un censo histórico impreso sin recursos lingüísticos

Ficheros en el ítem

Este ítem aparece en la(s) siguiente(s) colección(ones)