Resumen:
|
[ES] Este Trabajo de Fin de Grado se enfoca en el estudio e implementación de modelos para la generación
automática de descripciones de imágenes, un área de la IA que une la visión por computador y el
procesamiento del ...[+]
[ES] Este Trabajo de Fin de Grado se enfoca en el estudio e implementación de modelos para la generación
automática de descripciones de imágenes, un área de la IA que une la visión por computador y el
procesamiento del lenguaje natural. En primer lugar, se lleva a cabo una revisión de los trabajos
estado del arte en este campo. A continuación, se proponen y desarrollan dos arquitecturas para
abordar la tarea. La primera es una basada en el modelo codificador-decodificador, utilizando
redes neuronales convolucionales (CNN) combinadas con redes neuronales recurrentes (LSTM).
Esta metodología aprovecha la capacidad de las CNN para extraer características visuales de las
imágenes y la habilidad de las LSTM para generar secuencias de texto descriptivas. La segunda
arquitectura emplea modelos basados en Transformers, específicamente Vision Transformer
(ViT) para la extracción de características visuales y GPT-2 para la generación de texto. Se
proporciona una explicación detallada de los componentes de ambas arquitecturas. Finalmente,
se implementan y evalúan ambas arquitecturas, comparando sus resultados para analizar las
mejoras y avances que cada metodología aporta en la generación automática de descripciones.
[-]
[EN] This Final Degree Project focuses on the study and implementation of image captioning models, an area of AI that combines computer vision and natural language processing. First, a thorough review of the state-of-the-art ...[+]
[EN] This Final Degree Project focuses on the study and implementation of image captioning models, an area of AI that combines computer vision and natural language processing. First, a thorough review of the state-of-the-art works in this field is conducted. Next, two architectures will be proposed and developed. The first is based on an encoder-decoder model, using Convolutional Neural Networks (CNNs) combined with Long Short-Term Memory networks (LSTMs). This methodology leverages the ability of CNNs to extract visual features from images and the capability of LSTMs to generate descriptive text sequences. The second architecture employs Transformer-based models, specifically Vision Transformer (ViT) for visual feature extraction and GPT-2 for text generation. A detailed explanation of the components of both architectures is provided. Finally, both architectures are implemented and evaluated, comparing their results to analyse the improvements and advancements each methodology brings to image captioning.
[-]
[CA] Aquest Treball de Fi de Grau es centra en l'estudi i la implementació de models per a la
generació automàtica de descripcions d'imatges, una àrea de la IA que uneix la visió per
computador i el processament del ...[+]
[CA] Aquest Treball de Fi de Grau es centra en l'estudi i la implementació de models per a la
generació automàtica de descripcions d'imatges, una àrea de la IA que uneix la visió per
computador i el processament del llenguatge natural. En primer lloc, es realitza una revisió dels
treballs estat de l'art en aquest camp. A continuació, es proposen i desenvolupen dues
arquitectures per afrontar la tasca. La primera es basa en el model codificador-decodificador,
utilitzant xarxes neuronals convolucionals (CNN) combinades amb xarxes neuronals recurrents
(LSTM). Aquesta metodologia aprofita la capacitat de les CNN per extreure característiques
visuals de les imatges i l'habilitat de les LSTM per generar seqüències de text descriptives. La
segona arquitectura utilitza models basats en Transformers, específicament Vision Transformer
(ViT) per a l'extracció de característiques visuals i GPT-2 per a la generació de text. Es
proporciona una explicació detallada dels components de totes dues arquitectures. Finalment,
s'implementen i s'avaluen ambdues arquitectures, comparant els seus resultats per analitzar les
millores i els avanços que cada metodologia aporta en la generació automàtica de descripcions.
[-]
|