Clasificación de imágenes de documentos manuscritos a partir de índicesprobabilisticos mediante redes neuronales

Flores Arellano, Juan José

Identificarse

Buscar en RiuNet

Listar

Todo RiuNet
Esta colección

Mi cuenta

Acceder

Estadísticas

Ver Estadísticas de uso

Ayuda RiuNet

Admin. UPV

Compartir/Enviar a

Citas

Estadísticas

Clasificación de imágenes de documentos manuscritos a partir de índicesprobabilisticos mediante redes neuronales

Mostrar el registro sencillo del ítem

Ficheros en el ítem

Nombre: Flores - Clasificacion ...

Tamaño: 9.240Mb

Formato: PDF

Abrir

dc.contributor.advisor	Vidal Ruiz, Enrique	es_ES
dc.contributor.advisor	Prieto Fontcuberta, José Ramón	es_ES
dc.contributor.author	Flores Arellano, Juan José	es_ES
dc.date.accessioned	2021-09-13T11:20:59Z
dc.date.available	2021-09-13T11:20:59Z
dc.date.created	2021-07-19
dc.date.issued	2021-09-13	es_ES
dc.identifier.uri	http://hdl.handle.net/10251/172234
dc.description.abstract	[ES] La clasificación de documentos manuscritos basada en el contenido es una importante tarea que generalmente se realiza en archivos y bibliotecas por expertos con un gran conocimiento sobre el contenido de los documentos. Pero, desafortunadamente, muchas colecciones de manuscritos son tan vastas que no es factible depender únicamente de expertos para realizar esta tarea. Los enfoques actuales para la clasificación de manuscritos basada en el contenido textual generalmente requiere que las imágenes de texto manuscrito sean transcritas y convertidas en texto electrónico. Pero para grandes colecciones de manuscritos históricos la transcripción manual es generalmente inviable. Y debido a las imprecisiones inherentes al texto, incertidumbres debidas a léxico arcaico y estado de conservación de los documentos, la transcripción automática no consigue obtener resultados suficientemente precisos. En este proyecto se propone un nuevo enfoque para realizar esta tarea de clasificación que no requiere de transcripciones explícitas de las imágenes. Se basa en ’indexación probabilística’, una tecnología relativamente novedosa que permite representar eficazmente las incertidumbres intrínsecas que están generalmente presentes en los textos manuscritos históricos. Se propone trabajar sobre legajos del siglo XVII del Archivo Histórico Provincial de Cádiz. Cada legajo contiene centenares de expedientes notariales manuscritos de diversas tipologías (Venta, Arrendamiento, Poder, Testamento, etc.). El objeto es clasificar cada expediente en su correspondiente tipología. Un sistema que resuelva satisfactoriamente esta tarea tiene una enorme aplicabilidad en cientos, o miles, de archivos y bibliotecas que custodian millones de documentos que no han podido ser catalogados adecuadamente a causa de la enorme envergadura de la tarea para un procesado puramente manual. Por otra parte, la metodología a desarrollar en este proyecto puede abrir puertas para abordar muchas otras tareas de analítica de texto sobre grandes volúmenes de imágenes de texto manuscrito sin transcribir. Por tanto, estos desarrollos tienen también un gran interés científico-técnico y pueden dar lugar a publicaciones académicas relevantes. Como conclusión, señalar que todo el código desarrollado durante el proyecto será depositado en un repositorio público, con el objetivo de que futuros trabajos puedan continuar desde lo hecho en este.	es_ES
dc.description.abstract	[EN] The classification of manuscript documents based on content is an important task that is usually performed in archives and libraries by experts with a great deal of knowledge about the content of the documents. usually performed in archives and libraries by experts with a great deal of knowledge about the content of the documents. But, unfortunately, many manuscript collections are so vast that it is not feasible to rely solely on experts to perform this task. Current approaches to manuscript classification based on textual content generally require manuscript text images to be transcribed and converted into electronic text. But for large collections of historical manuscripts manual transcription is generally infeasible. And due to inherent textual inaccuracies, uncertainties due to archaic lexicon and state of preservation of the documents, automatic transcription fails to obtain sufficiently accurate results. This project proposes a new approach to this classification task that does not require explicit transcriptions of the images. requires explicit transcriptions of the images. It is based on ’probabilistic indexing’, a relatively novel technology that allows to efficiently represent the intrinsic uncertainties that are generally present in historical manuscript texts. that are generally present in historical manuscript texts. It is proposed to work on 17th century files from the Provincial Historical Archive of Cadiz. Each file contains hundreds of handwritten notarial records of various types (Sale, Lease, Power of Attorney, Will, etc.). The objective is to classify each file in its corresponding typology. A system that satisfactorily solves this task has an enormous applicability in hundreds, or thousands, of archives and hundreds, or thousands, of archives and libraries that hold millions of documents that have not been properly catalogued because of the enormous size of the task for a purely manual processing. purely manual processing On the other hand, the methodology to be developed in this project may open doors to address many other text analytical tasks on large volumes of untranscribed many other text analytics tasks on large volumes of untranscribed manuscript text images. Therefore, these developments are also of great scientific-technical interest and may lead to relevant academic publications. In conclusion, all the code developed during the project will be deposited in a public repository, so that future work can continue from what has been done in this project.	es_ES
dc.description.abstract	[CA] La classificació de documents manuscrits basada en el contingut és una important tasca que generalment es realitza en arxius i biblioteques per experts amb un gran coneixement sobre el contingut dels documents. Però, desafortunadament, moltes col·leccions de manuscrits són tan vastes que no és factible dependre únicament d’experts per a fer aquesta tasca. Els enfocaments actuals per a la classificació de manuscrits basada en el contingut textual generalment requereix que les imatges de text manuscrit siguen transcrites i convertides en text electrònic. Però per a grans col·leccions de manuscrits històrics la transcripció manual és generalment inviable. I a causa de les imprecisions inherents al text, incerteses degudes a lèxic arcaic i estat de conservació dels documents, la transcripció automàtica no aconsegueix obtindre resultats prou precisos. En aquest projecte es proposa un nou enfocament per a fer aquesta tasca de classificació que no requereix de transcripcions explícites de les imatges. Es basa en ’indexació probabilística’, una tecnologia relativament nova que permet representar eficaçment les incerteses intrínseques que estan generalment presents en els textos manuscrits històrics. Es proposa treballar sobre lligalls del segle XVII de l’Arxiu Històric Provincial de Cadis. Cada lligall conté centenars d’expedients notarials manuscrits de diverses tipologies (Venda, Arrendament, Poder, Testament, etc.). L’objecte és classificar cada expedient en la seua corresponent tipologia. Un sistema que resolga satisfactòriament aquesta tasca té una enorme aplicabilitat en centenars, o milers, d’arxius i biblioteques que custodien milions de documents que no han pogut ser catalogats adequadament a causa de l’enorme envergadura de la tasca per a un processament purament manual. D’altra banda, la metodologia a desenvolupar en aquest projecte pot obrir portes per a abordar moltes altres tasques d’analítica de text sobre grans volums d’imatges de text manuscrit sense transcriure. Per tant, aquests desenvolupaments tenen també un gran interés cientificotècnic i poden donar lloc a publicacions acadèmiques rellevants. Com a conclusió, assenyalar que tot el codi desenvolupat durant el projecte serà dipositat en un repositori públic, amb l’objectiu que futurs treballs puguin continuar des del fet en aquest.	es_ES
dc.format.extent	52	es_ES
dc.language	Español	es_ES
dc.publisher	Universitat Politècnica de València	es_ES
dc.rights	Reconocimiento - No comercial - Sin obra derivada (by-nc-nd)	es_ES
dc.subject	Documentos Manuscritos	es_ES
dc.subject	Reconocimiento de imágenes	es_ES
dc.subject	Clasificación de Documentos.	es_ES
dc.subject	Indexación Probabilística	es_ES
dc.subject	Manuscript documents	es_ES
dc.subject	Image recognition	es_ES
dc.subject	Document Classification	es_ES
dc.subject	Probabilistic Indexing	es_ES
dc.subject.classification	CIENCIAS DE LA COMPUTACION E INTELIGENCIA ARTIFICIAL	es_ES
dc.subject.classification	LENGUAJES Y SISTEMAS INFORMATICOS	es_ES
dc.subject.other	Grado en Ingeniería Informática-Grau en Enginyeria Informàtica	es_ES
dc.title	Clasificación de imágenes de documentos manuscritos a partir de índicesprobabilisticos mediante redes neuronales	es_ES
dc.title.alternative	Neural network classification of handwritten document images based on probabilistic indexing	es_ES
dc.type	Proyecto/Trabajo fin de carrera/grado	es_ES
dc.rights.accessRights	Abierto	es_ES
dc.contributor.affiliation	Universitat Politècnica de València. Departamento de Sistemas Informáticos y Computación - Departament de Sistemes Informàtics i Computació	es_ES
dc.contributor.affiliation	Universitat Politècnica de València. Escola Tècnica Superior d'Enginyeria Informàtica	es_ES
dc.description.bibliographicCitation	Flores Arellano, JJ. (2021). Clasificación de imágenes de documentos manuscritos a partir de índicesprobabilisticos mediante redes neuronales. Universitat Politècnica de València. http://hdl.handle.net/10251/172234	es_ES
dc.description.accrualMethod	TFGM	es_ES
dc.relation.pasarela	TFGM\143102	es_ES

Este ítem aparece en la(s) siguiente(s) colección(ones)

ETSINF - Trabajos académicos [5160]
Escola Tècnica Superior d'Enginyeria Informàtica

Mostrar el registro sencillo del ítem

Clasificación de imágenes de documentos manuscritos a partir de índicesprobabilisticos mediante redes neuronales

RiuNet: Repositorio Institucional de la Universidad Politécnica de Valencia

Buscar en RiuNet

Listar

Todo RiuNet

Esta colección

Mi cuenta

Estadísticas

Ayuda RiuNet

Admin. UPV

Compartir/Enviar a

Citas

Estadísticas

Clasificación de imágenes de documentos manuscritos a partir de índicesprobabilisticos mediante redes neuronales

Ficheros en el ítem

Este ítem aparece en la(s) siguiente(s) colección(ones)