- -

Generación automatizada de descripciones de imágenes mediante inteligencia artificial

RiuNet: Repositorio Institucional de la Universidad Politécnica de Valencia

Compartir/Enviar a

Citas

Estadísticas

  • Estadisticas de Uso

Generación automatizada de descripciones de imágenes mediante inteligencia artificial

Mostrar el registro sencillo del ítem

Ficheros en el ítem

dc.contributor.advisor Casacuberta Nolla, Francisco es_ES
dc.contributor.author Miravet Tenés, Joan es_ES
dc.date.accessioned 2024-10-15T07:44:59Z
dc.date.available 2024-10-15T07:44:59Z
dc.date.created 2024-09-20
dc.date.issued 2024-10-15 es_ES
dc.identifier.uri http://hdl.handle.net/10251/210121
dc.description.abstract [ES] Este Trabajo de Fin de Grado se enfoca en el estudio e implementación de modelos para la generación automática de descripciones de imágenes, un área de la IA que une la visión por computador y el procesamiento del lenguaje natural. En primer lugar, se lleva a cabo una revisión de los trabajos estado del arte en este campo. A continuación, se proponen y desarrollan dos arquitecturas para abordar la tarea. La primera es una basada en el modelo codificador-decodificador, utilizando redes neuronales convolucionales (CNN) combinadas con redes neuronales recurrentes (LSTM). Esta metodología aprovecha la capacidad de las CNN para extraer características visuales de las imágenes y la habilidad de las LSTM para generar secuencias de texto descriptivas. La segunda arquitectura emplea modelos basados en Transformers, específicamente Vision Transformer (ViT) para la extracción de características visuales y GPT-2 para la generación de texto. Se proporciona una explicación detallada de los componentes de ambas arquitecturas. Finalmente, se implementan y evalúan ambas arquitecturas, comparando sus resultados para analizar las mejoras y avances que cada metodología aporta en la generación automática de descripciones. es_ES
dc.description.abstract [EN] This Final Degree Project focuses on the study and implementation of image captioning models, an area of AI that combines computer vision and natural language processing. First, a thorough review of the state-of-the-art works in this field is conducted. Next, two architectures will be proposed and developed. The first is based on an encoder-decoder model, using Convolutional Neural Networks (CNNs) combined with Long Short-Term Memory networks (LSTMs). This methodology leverages the ability of CNNs to extract visual features from images and the capability of LSTMs to generate descriptive text sequences. The second architecture employs Transformer-based models, specifically Vision Transformer (ViT) for visual feature extraction and GPT-2 for text generation. A detailed explanation of the components of both architectures is provided. Finally, both architectures are implemented and evaluated, comparing their results to analyse the improvements and advancements each methodology brings to image captioning. es_ES
dc.description.abstract [CA] Aquest Treball de Fi de Grau es centra en l'estudi i la implementació de models per a la generació automàtica de descripcions d'imatges, una àrea de la IA que uneix la visió per computador i el processament del llenguatge natural. En primer lloc, es realitza una revisió dels treballs estat de l'art en aquest camp. A continuació, es proposen i desenvolupen dues arquitectures per afrontar la tasca. La primera es basa en el model codificador-decodificador, utilitzant xarxes neuronals convolucionals (CNN) combinades amb xarxes neuronals recurrents (LSTM). Aquesta metodologia aprofita la capacitat de les CNN per extreure característiques visuals de les imatges i l'habilitat de les LSTM per generar seqüències de text descriptives. La segona arquitectura utilitza models basats en Transformers, específicament Vision Transformer (ViT) per a l'extracció de característiques visuals i GPT-2 per a la generació de text. Es proporciona una explicació detallada dels components de totes dues arquitectures. Finalment, s'implementen i s'avaluen ambdues arquitectures, comparant els seus resultats per analitzar les millores i els avanços que cada metodologia aporta en la generació automàtica de descripcions. es_ES
dc.format.extent 84 es_ES
dc.language Español es_ES
dc.publisher Universitat Politècnica de València es_ES
dc.rights Reserva de todos los derechos es_ES
dc.subject Deep learning es_ES
dc.subject Visión por computador es_ES
dc.subject Procesamiento del lenguaje natural es_ES
dc.subject Redes neuronales es_ES
dc.subject Transformers es_ES
dc.subject Descripción de imágenes es_ES
dc.subject Aprendizaje automático es_ES
dc.subject Computer vision es_ES
dc.subject Natural language processing es_ES
dc.subject Neural networks es_ES
dc.subject Image captioning es_ES
dc.subject Machine learning es_ES
dc.subject.other Grado en Ciencia de Datos-Grau en Ciència de Dades es_ES
dc.title Generación automatizada de descripciones de imágenes mediante inteligencia artificial es_ES
dc.title.alternative Generació automatitzada de descripcions d'imatges mitjançant intel·ligència artificial es_ES
dc.title.alternative Automated Generation of Image Descriptions using Artificial Intelligence es_ES
dc.type Proyecto/Trabajo fin de carrera/grado es_ES
dc.rights.accessRights Abierto es_ES
dc.contributor.affiliation Universitat Politècnica de València. Departamento de Sistemas Informáticos y Computación - Departament de Sistemes Informàtics i Computació es_ES
dc.contributor.affiliation Universitat Politècnica de València. Escola Tècnica Superior d'Enginyeria Informàtica es_ES
dc.description.bibliographicCitation Miravet Tenés, J. (2024). Generación automatizada de descripciones de imágenes mediante inteligencia artificial. Universitat Politècnica de València. http://hdl.handle.net/10251/210121 es_ES
dc.description.accrualMethod TFGM es_ES
dc.relation.pasarela TFGM\162186 es_ES


Este ítem aparece en la(s) siguiente(s) colección(ones)

Mostrar el registro sencillo del ítem