Mostrar el registro sencillo del ítem
dc.contributor.advisor | Casacuberta Nolla, Francisco | es_ES |
dc.contributor.author | Miravet Tenés, Joan | es_ES |
dc.date.accessioned | 2024-10-15T07:44:59Z | |
dc.date.available | 2024-10-15T07:44:59Z | |
dc.date.created | 2024-09-20 | |
dc.date.issued | 2024-10-15 | es_ES |
dc.identifier.uri | http://hdl.handle.net/10251/210121 | |
dc.description.abstract | [ES] Este Trabajo de Fin de Grado se enfoca en el estudio e implementación de modelos para la generación automática de descripciones de imágenes, un área de la IA que une la visión por computador y el procesamiento del lenguaje natural. En primer lugar, se lleva a cabo una revisión de los trabajos estado del arte en este campo. A continuación, se proponen y desarrollan dos arquitecturas para abordar la tarea. La primera es una basada en el modelo codificador-decodificador, utilizando redes neuronales convolucionales (CNN) combinadas con redes neuronales recurrentes (LSTM). Esta metodología aprovecha la capacidad de las CNN para extraer características visuales de las imágenes y la habilidad de las LSTM para generar secuencias de texto descriptivas. La segunda arquitectura emplea modelos basados en Transformers, específicamente Vision Transformer (ViT) para la extracción de características visuales y GPT-2 para la generación de texto. Se proporciona una explicación detallada de los componentes de ambas arquitecturas. Finalmente, se implementan y evalúan ambas arquitecturas, comparando sus resultados para analizar las mejoras y avances que cada metodología aporta en la generación automática de descripciones. | es_ES |
dc.description.abstract | [EN] This Final Degree Project focuses on the study and implementation of image captioning models, an area of AI that combines computer vision and natural language processing. First, a thorough review of the state-of-the-art works in this field is conducted. Next, two architectures will be proposed and developed. The first is based on an encoder-decoder model, using Convolutional Neural Networks (CNNs) combined with Long Short-Term Memory networks (LSTMs). This methodology leverages the ability of CNNs to extract visual features from images and the capability of LSTMs to generate descriptive text sequences. The second architecture employs Transformer-based models, specifically Vision Transformer (ViT) for visual feature extraction and GPT-2 for text generation. A detailed explanation of the components of both architectures is provided. Finally, both architectures are implemented and evaluated, comparing their results to analyse the improvements and advancements each methodology brings to image captioning. | es_ES |
dc.description.abstract | [CA] Aquest Treball de Fi de Grau es centra en l'estudi i la implementació de models per a la generació automàtica de descripcions d'imatges, una àrea de la IA que uneix la visió per computador i el processament del llenguatge natural. En primer lloc, es realitza una revisió dels treballs estat de l'art en aquest camp. A continuació, es proposen i desenvolupen dues arquitectures per afrontar la tasca. La primera es basa en el model codificador-decodificador, utilitzant xarxes neuronals convolucionals (CNN) combinades amb xarxes neuronals recurrents (LSTM). Aquesta metodologia aprofita la capacitat de les CNN per extreure característiques visuals de les imatges i l'habilitat de les LSTM per generar seqüències de text descriptives. La segona arquitectura utilitza models basats en Transformers, específicament Vision Transformer (ViT) per a l'extracció de característiques visuals i GPT-2 per a la generació de text. Es proporciona una explicació detallada dels components de totes dues arquitectures. Finalment, s'implementen i s'avaluen ambdues arquitectures, comparant els seus resultats per analitzar les millores i els avanços que cada metodologia aporta en la generació automàtica de descripcions. | es_ES |
dc.format.extent | 84 | es_ES |
dc.language | Español | es_ES |
dc.publisher | Universitat Politècnica de València | es_ES |
dc.rights | Reserva de todos los derechos | es_ES |
dc.subject | Deep learning | es_ES |
dc.subject | Visión por computador | es_ES |
dc.subject | Procesamiento del lenguaje natural | es_ES |
dc.subject | Redes neuronales | es_ES |
dc.subject | Transformers | es_ES |
dc.subject | Descripción de imágenes | es_ES |
dc.subject | Aprendizaje automático | es_ES |
dc.subject | Computer vision | es_ES |
dc.subject | Natural language processing | es_ES |
dc.subject | Neural networks | es_ES |
dc.subject | Image captioning | es_ES |
dc.subject | Machine learning | es_ES |
dc.subject.other | Grado en Ciencia de Datos-Grau en Ciència de Dades | es_ES |
dc.title | Generación automatizada de descripciones de imágenes mediante inteligencia artificial | es_ES |
dc.title.alternative | Generació automatitzada de descripcions d'imatges mitjançant intel·ligència artificial | es_ES |
dc.title.alternative | Automated Generation of Image Descriptions using Artificial Intelligence | es_ES |
dc.type | Proyecto/Trabajo fin de carrera/grado | es_ES |
dc.rights.accessRights | Abierto | es_ES |
dc.contributor.affiliation | Universitat Politècnica de València. Departamento de Sistemas Informáticos y Computación - Departament de Sistemes Informàtics i Computació | es_ES |
dc.contributor.affiliation | Universitat Politècnica de València. Escola Tècnica Superior d'Enginyeria Informàtica | es_ES |
dc.description.bibliographicCitation | Miravet Tenés, J. (2024). Generación automatizada de descripciones de imágenes mediante inteligencia artificial. Universitat Politècnica de València. http://hdl.handle.net/10251/210121 | es_ES |
dc.description.accrualMethod | TFGM | es_ES |
dc.relation.pasarela | TFGM\162186 | es_ES |