- -

Clasificación automática de documentos administrativos

RiuNet: Repositorio Institucional de la Universidad Politécnica de Valencia

Compartir/Enviar a

Citas

Estadísticas

  • Estadisticas de Uso

Clasificación automática de documentos administrativos

Mostrar el registro sencillo del ítem

Ficheros en el ítem

dc.contributor.advisor Ferri Ramírez, César es_ES
dc.contributor.advisor Martínez Plumed, Fernando es_ES
dc.contributor.advisor Garigliotti, Dario es_ES
dc.contributor.author Llácer Luna, Socrátes Enrique es_ES
dc.date.accessioned 2024-10-24T12:53:40Z
dc.date.available 2024-10-24T12:53:40Z
dc.date.created 2024-09-23
dc.date.issued 2024-10-24 es_ES
dc.identifier.uri http://hdl.handle.net/10251/210852
dc.description.abstract [CA] Les organitzacions que gestionen grans repositoris de documents digitals enfronten desafiaments similars, com la classificació eficient i precisa de grans volums d’arxius. Aquest projecte ofereix una solució automatitzada que integra tècniques de reconeixement òptic de caràcters (OCR) i aprenentatge automàtic per a abordar aquests problemes de manera generalitzable. La solució distingeix entre documents escanejats i digitals, extrau el text amb precisió, i el categoritza en fins a 42 classes predefinides, utilitzant models avançats com BERT i Random Forest (RF) . En particular, la Universitat Politècnica de València (UPV) s’enfronta a la gestió d’un repositori Alfresco que conté 600.000 arxius PDF, dels quals només 100.000 estan correctament categoritzats. La classificació manual és laboriosa i propensa a errors, la qual cosa dificulta la recuperació d’informació i les capacitats de cerca avançada. Aquest projecte ha sigut enfocat a donar solució a aquest problema, adaptant la solució general per a millorar l’organització i accessibilitat dels documents en la UPV. A més, estableix les bases per a la implementació de tecnologies avançades de cerca i classificació en temps real dins de la institució es_ES
dc.description.abstract [ES] Las organizaciones que gestionan grandes repositorios de documentos digitales enfrentan desafíos similares, como la clasificación eficiente y precisa de grandes volúmenes de archivos. Este proyecto ofrece una solución automatizada que integra técnicas de reconocimiento óptico de caracteres (OCR) y aprendizaje automático para abordar estos problemas de forma generalizable. La solución distingue entre documentos escaneados y digitales, extrae el texto con precisión, y lo categoriza en hasta 42 clases predefinidas, utilizando modelos avanzados como BERT y Random Forest (RF). En particular, la Universitat Politècnica de València (UPV) se enfrenta a la gestión de un repositorio Alfresco que contiene 600.000 archivos PDF, de los cuales solo 100.000 están correctamente categorizados. La clasificación manual es laboriosa y propensa a errores, lo que dificulta la recuperación de información y las capacidades de búsqueda avanzada. Este proyecto ha sido enfocado en dar solución a este problema, adaptando la solución general para mejorar la organización y accesibilidad de los documentos en la UPV. Además, sienta las bases para la implementación de tecnologías avanzadas de búsqueda y clasificación en tiempo real dentro de la institución. es_ES
dc.description.abstract [EN] Organizations managing large digital document repositories face similar challenges, such as the efficient and accurate classification of vast amounts of files. This project offers an automated solution that integrates Optical Character Recognition (OCR) techniques and machine learning to address these issues in a generalizable manner. The solution distinguishes between scanned and digital documents, accurately extracts text, and categorizes it into up to 42 predefined classes using advanced models such as BERT and Random Forest (RF). Specifically, the Universitat Politècnica de València (UPV) faces the challenge of managing an Alfresco repository containing 600,000 PDF files, of which only 100,000 are correctly categorized. Manual classification is time-consuming and prone to errors, hindering information retrieval and advanced search capabilities. This project has been focused on solving this problem, adapting the general solution to improve the organization and accessibility of documents at UPV. Moreover, it lays the groundwork for the implementation of advanced search and real-time classification technologies within the institution. es_ES
dc.format.extent 69 es_ES
dc.language Español es_ES
dc.publisher Universitat Politècnica de València es_ES
dc.rights Reserva de todos los derechos es_ES
dc.subject Repositorio Alfresco es_ES
dc.subject PyTesseract es_ES
dc.subject NLP es_ES
dc.subject Alfresco Repository es_ES
dc.subject Language Model es_ES
dc.subject Optical character recognition [OCR] es_ES
dc.subject Clasificación de documentos es_ES
dc.subject Machine learning es_ES
dc.subject Modelo de lenguaje es_ES
dc.subject Bidirectional encoder representations from transformers [BERT] es_ES
dc.subject Classificació de documents es_ES
dc.subject Repositori Alfresco es_ES
dc.subject Random forest [RF] es_ES
dc.subject Document classification es_ES
dc.subject.classification LENGUAJES Y SISTEMAS INFORMATICOS es_ES
dc.subject.other Grado en Ingeniería Informática-Grau en Enginyeria Informàtica es_ES
dc.title Clasificación automática de documentos administrativos es_ES
dc.title.alternative Automatic classification of administrative documents es_ES
dc.title.alternative Classificació automàtica de documents administratius es_ES
dc.type Proyecto/Trabajo fin de carrera/grado es_ES
dc.rights.accessRights Cerrado es_ES
dc.contributor.affiliation Universitat Politècnica de València. Departamento de Sistemas Informáticos y Computación - Departament de Sistemes Informàtics i Computació es_ES
dc.contributor.affiliation Universitat Politècnica de València. Escola Tècnica Superior d'Enginyeria Informàtica es_ES
dc.description.bibliographicCitation Llácer Luna, SE. (2024). Clasificación automática de documentos administrativos. Universitat Politècnica de València. http://hdl.handle.net/10251/210852 es_ES
dc.description.accrualMethod TFGM es_ES
dc.relation.pasarela TFGM\165531 es_ES


Este ítem aparece en la(s) siguiente(s) colección(ones)

Mostrar el registro sencillo del ítem