Generación automatizada de descripciones de imágenes mediante inteligencia artificial

Miravet Tenés, Joan

Generación automatizada de descripciones de imágenes mediante inteligencia artificial

Archivos

Miravet - Generacion Automatizada de Descripciones de Imagenes mediante Inteligencia Artificial.pdf (4.95 MB)

Fecha

2024-10-15

Autores

Miravet Tenés, Joan

Directores

Casacuberta Nolla, Francisco

Unidades organizativas

Centro de Investigación Pattern Recognition and Human Language Technology

Compartir

Handle

https://riunet.upv.es/handle/10251/210121

Cita bibliográfica

Miravet Tenés, J. (2024). Generación automatizada de descripciones de imágenes mediante inteligencia artificial. Universitat Politècnica de València. https://riunet.upv.es/handle/10251/210121

Titulación

Grado en Ciencia de Datos-Grau en Ciència de Dades

Resumen

[ES] Este Trabajo de Fin de Grado se enfoca en el estudio e implementación de modelos para la generación automática de descripciones de imágenes, un área de la IA que une la visión por computador y el procesamiento del lenguaje natural. En primer lugar, se lleva a cabo una revisión de los trabajos estado del arte en este campo. A continuación, se proponen y desarrollan dos arquitecturas para abordar la tarea. La primera es una basada en el modelo codificador-decodificador, utilizando redes neuronales convolucionales (CNN) combinadas con redes neuronales recurrentes (LSTM). Esta metodología aprovecha la capacidad de las CNN para extraer características visuales de las imágenes y la habilidad de las LSTM para generar secuencias de texto descriptivas. La segunda arquitectura emplea modelos basados en Transformers, específicamente Vision Transformer (ViT) para la extracción de características visuales y GPT-2 para la generación de texto. Se proporciona una explicación detallada de los componentes de ambas arquitecturas. Finalmente, se implementan y evalúan ambas arquitecturas, comparando sus resultados para analizar las mejoras y avances que cada metodología aporta en la generación automática de descripciones.

[EN] This Final Degree Project focuses on the study and implementation of image captioning models, an area of AI that combines computer vision and natural language processing. First, a thorough review of the state-of-the-art works in this field is conducted. Next, two architectures will be proposed and developed. The first is based on an encoder-decoder model, using Convolutional Neural Networks (CNNs) combined with Long Short-Term Memory networks (LSTMs). This methodology leverages the ability of CNNs to extract visual features from images and the capability of LSTMs to generate descriptive text sequences. The second architecture employs Transformer-based models, specifically Vision Transformer (ViT) for visual feature extraction and GPT-2 for text generation. A detailed explanation of the components of both architectures is provided. Finally, both architectures are implemented and evaluated, comparing their results to analyse the improvements and advancements each methodology brings to image captioning.

[CA] Aquest Treball de Fi de Grau es centra en l'estudi i la implementació de models per a la generació automàtica de descripcions d'imatges, una àrea de la IA que uneix la visió per computador i el processament del llenguatge natural. En primer lloc, es realitza una revisió dels treballs estat de l'art en aquest camp. A continuació, es proposen i desenvolupen dues arquitectures per afrontar la tasca. La primera es basa en el model codificador-decodificador, utilitzant xarxes neuronals convolucionals (CNN) combinades amb xarxes neuronals recurrents (LSTM). Aquesta metodologia aprofita la capacitat de les CNN per extreure característiques visuals de les imatges i l'habilitat de les LSTM per generar seqüències de text descriptives. La segona arquitectura utilitza models basats en Transformers, específicament Vision Transformer (ViT) per a l'extracció de característiques visuals i GPT-2 per a la generació de text. Es proporciona una explicació detallada dels components de totes dues arquitectures. Finalment, s'implementen i s'avaluen ambdues arquitectures, comparant els seus resultats per analitzar les millores i els avanços que cada metodologia aporta en la generació automàtica de descripcions.

Palabras clave

Deep learning, Visión por computador, Proceso en lenguaje natural (Informática), Redes neuronales, Transformers, Descripción de imágenes, Aprendizaje automático, Computer vision, Natural language processing (Computer science), Neural networks, Image captioning, Machine learning

Colecciones

ETSINF - Trabajos académicos

Página completa del ítem

Generación automatizada de descripciones de imágenes mediante inteligencia artificial

Archivos

Fecha

Autores

Directores

Editores

Otras autorías

Unidades organizativas

Compartir

Handle

Cita bibliográfica

Titulación

Resumen

Palabras clave

Fuente

DOI

Versión del editor

Enlaces relacionados

URL

Colecciones