Resumen:
|
[ES] Existen grandes colecciones de manuscritos, las cuales contienen información muy valiosa sobre aspectos cruciales de la historia de nuestra sociedad.
Existe tal cantidad de documentos que de forma manual se tardarían ...[+]
[ES] Existen grandes colecciones de manuscritos, las cuales contienen información muy valiosa sobre aspectos cruciales de la historia de nuestra sociedad.
Existe tal cantidad de documentos que de forma manual se tardarían años, o
incluso siglos, en poder extraer toda la información, cuya mayoría es textual.
Debido a esto, se trata de utilizar técnicas de maquetación y reconocimiento
de texto manuscrito de las imágenes de forma automática a fin de poder comprender mejor, y de manera m´as eficiente, la información que nos proporcionan
estas colecciones.
Este Trabajo de Fin de Máster se ha centrado en el desarrollo y evaluación
de diferentes técnicas de aprendizaje profundo para realizar la maquetación
de páginas con alto valor histórico.
Por lo que este trabajo gira en torno a dos tareas. La primera, la segmentación de zonas en un corpus del siglo XIV al siglo XIX. Dicho corpus está
compuesto mayormente por tablas, habilitando un posterior análisis para permitir realizar consultas estructuradas. La segunda tarea trata de la separación
de registros en una colección del siglo XIV al siglo XV dictados por el rey
de Francia. Dicha separación ayudaría a la búsqueda de temas concretos de la
época, así como posibles sentencias escritas en dichos registros.
Además, se ha utilizado la información textual disponible en ambas colecciones para fusionarla con la información gráfica de la página y analizar así su
impacto sobre los resultados.
Tras experimentar con diferentes arquitecturas de redes convolucionales, se
han mejorado los resultados base en una de las tareas. Por otro lado, la información textual extraída del contenido textual de los documentos ha ayudado
a obtener mejoras en los resultados en ambas tareas.
[-]
[EN] There are large collections of manuscripts which contain very valuable information on crucial aspects of the history of our society. There are such large
quantity of documents that it would take years, of even ...[+]
[EN] There are large collections of manuscripts which contain very valuable information on crucial aspects of the history of our society. There are such large
quantity of documents that it would take years, of even centuries, to manually extract all the information, most of it is textual. Due to this, there are
automatic image document layout analysis and handwritten text recognition
techniques that helps to get a better understanding –and more efficiently –of
the information provided by these collections.
This Master Thesis has focused on the development and evaluation of different deep learning techniques to make the layout of pages with high historical
value.
This work revolves around two tasks. The first one, the zone segmentation
in a corpus of the century XIV to the century XIX. This corpus is mostly composed by tables, enabling a subsequent analysis to allow structured queries.
The second task deals with the separation of records in a collection of the
century XIV to the century XV dictated by the King of France. This separation would help the search for specific issues of the time, as well as possible
sentences written in those records.
In addition, we have tried to use the textual information available in both
collections used for merge this information with the graphic information of the
page and checking its impact on the results.
We have experimented with different architectures of convolutional networks and the base results have been improved in one of the tasks. It also
shows how the extracted textual information helps to obtain improvements in
the results in both tasks.
[-]
[CA] Existeixen grans col·leccions de manuscrits, els quals contenen informació
molt valuosa sobre aspectes crucials de la història de la nostra societat. Existeix tal quantitat de documents que de forma manual trigaríem ...[+]
[CA] Existeixen grans col·leccions de manuscrits, els quals contenen informació
molt valuosa sobre aspectes crucials de la història de la nostra societat. Existeix tal quantitat de documents que de forma manual trigaríem anys, o inclús
segles, en poder extraure tota la informació, on la majoria és textual. A causa
d’això, es tracta d’utilitzar tècniques de maquetació i reconeixement de text
manuscrit de les imatges de forma automàtica a fi de poder comprendre millor,
i de manera més eficient, la informació que proporcionen aquestes col·leccions.
Aquest Treball de Fi de Màster s’ha centrat en el desenvolupament i avaluació de diferents tècniques d’aprenentatge profund per a realitzar la maquetació
de pàgines amb alt valor històric.
Pel que aquest treball gira en torna a dues tasques. La primera, la segmentació de zones en un corpus del segle XIV al segle XIX. Dit corpus està
compost majorment per taules, habilitant un posterior anàlisi per permetre
realitzar consultes estructurades. La segona tasca tracta de la separació de
registres en una col·lecció del segle XIV al segle XV dictats pel rei de França.
Dita separació ajudaria a la recerca de temes concrets de l’època, així com
possibles sentències escrites en els dits registres.
A més, s’ha tractat d’utilitzar la informació textual disponible en ambdues
col·leccions fusionant-les amb la informació gràfica de la pàgina i analitzant el
seu impacte sobre els resultats.
Després d’experimentar amb diferents arquitectures de xarxes convolucionals, s’han trobat millores en els resultats base d’una de les tasques. Per una
altra banda, la informació textual extreta ha ajudat a obtenir millores en els
resultats d’ambdues tasques.
[-]
|