Generación automatizada de descripciones de imágenes mediante inteligencia artificial

Miravet Tenés, Joan

Identificarse

Buscar en RiuNet

Listar

Todo RiuNet
Esta colección

Mi cuenta

Acceder

Estadísticas

Ver Estadísticas de uso

Ayuda RiuNet

Admin. UPV

Compartir/Enviar a

Citas

Estadísticas

Generación automatizada de descripciones de imágenes mediante inteligencia artificial

Mostrar el registro sencillo del ítem

Ficheros en el ítem

Nombre: Miravet - Generacion ...

Tamaño: 4.948Mb

Formato: PDF

Abrir

dc.contributor.advisor	Casacuberta Nolla, Francisco	es_ES
dc.contributor.author	Miravet Tenés, Joan	es_ES
dc.date.accessioned	2024-10-15T07:44:59Z
dc.date.available	2024-10-15T07:44:59Z
dc.date.created	2024-09-20
dc.date.issued	2024-10-15	es_ES
dc.identifier.uri	http://hdl.handle.net/10251/210121
dc.description.abstract	[ES] Este Trabajo de Fin de Grado se enfoca en el estudio e implementación de modelos para la generación automática de descripciones de imágenes, un área de la IA que une la visión por computador y el procesamiento del lenguaje natural. En primer lugar, se lleva a cabo una revisión de los trabajos estado del arte en este campo. A continuación, se proponen y desarrollan dos arquitecturas para abordar la tarea. La primera es una basada en el modelo codificador-decodificador, utilizando redes neuronales convolucionales (CNN) combinadas con redes neuronales recurrentes (LSTM). Esta metodología aprovecha la capacidad de las CNN para extraer características visuales de las imágenes y la habilidad de las LSTM para generar secuencias de texto descriptivas. La segunda arquitectura emplea modelos basados en Transformers, específicamente Vision Transformer (ViT) para la extracción de características visuales y GPT-2 para la generación de texto. Se proporciona una explicación detallada de los componentes de ambas arquitecturas. Finalmente, se implementan y evalúan ambas arquitecturas, comparando sus resultados para analizar las mejoras y avances que cada metodología aporta en la generación automática de descripciones.	es_ES
dc.description.abstract	[EN] This Final Degree Project focuses on the study and implementation of image captioning models, an area of AI that combines computer vision and natural language processing. First, a thorough review of the state-of-the-art works in this field is conducted. Next, two architectures will be proposed and developed. The first is based on an encoder-decoder model, using Convolutional Neural Networks (CNNs) combined with Long Short-Term Memory networks (LSTMs). This methodology leverages the ability of CNNs to extract visual features from images and the capability of LSTMs to generate descriptive text sequences. The second architecture employs Transformer-based models, specifically Vision Transformer (ViT) for visual feature extraction and GPT-2 for text generation. A detailed explanation of the components of both architectures is provided. Finally, both architectures are implemented and evaluated, comparing their results to analyse the improvements and advancements each methodology brings to image captioning.	es_ES
dc.description.abstract	[CA] Aquest Treball de Fi de Grau es centra en l'estudi i la implementació de models per a la generació automàtica de descripcions d'imatges, una àrea de la IA que uneix la visió per computador i el processament del llenguatge natural. En primer lloc, es realitza una revisió dels treballs estat de l'art en aquest camp. A continuació, es proposen i desenvolupen dues arquitectures per afrontar la tasca. La primera es basa en el model codificador-decodificador, utilitzant xarxes neuronals convolucionals (CNN) combinades amb xarxes neuronals recurrents (LSTM). Aquesta metodologia aprofita la capacitat de les CNN per extreure característiques visuals de les imatges i l'habilitat de les LSTM per generar seqüències de text descriptives. La segona arquitectura utilitza models basats en Transformers, específicament Vision Transformer (ViT) per a l'extracció de característiques visuals i GPT-2 per a la generació de text. Es proporciona una explicació detallada dels components de totes dues arquitectures. Finalment, s'implementen i s'avaluen ambdues arquitectures, comparant els seus resultats per analitzar les millores i els avanços que cada metodologia aporta en la generació automàtica de descripcions.	es_ES
dc.format.extent	84	es_ES
dc.language	Español	es_ES
dc.publisher	Universitat Politècnica de València	es_ES
dc.rights	Reserva de todos los derechos	es_ES
dc.subject	Deep learning	es_ES
dc.subject	Visión por computador	es_ES
dc.subject	Procesamiento del lenguaje natural	es_ES
dc.subject	Redes neuronales	es_ES
dc.subject	Transformers	es_ES
dc.subject	Descripción de imágenes	es_ES
dc.subject	Aprendizaje automático	es_ES
dc.subject	Computer vision	es_ES
dc.subject	Natural language processing	es_ES
dc.subject	Neural networks	es_ES
dc.subject	Image captioning	es_ES
dc.subject	Machine learning	es_ES
dc.subject.other	Grado en Ciencia de Datos-Grau en Ciència de Dades	es_ES
dc.title	Generación automatizada de descripciones de imágenes mediante inteligencia artificial	es_ES
dc.title.alternative	Generació automatitzada de descripcions d'imatges mitjançant intel·ligència artificial	es_ES
dc.title.alternative	Automated Generation of Image Descriptions using Artificial Intelligence	es_ES
dc.type	Proyecto/Trabajo fin de carrera/grado	es_ES
dc.rights.accessRights	Abierto	es_ES
dc.contributor.affiliation	Universitat Politècnica de València. Departamento de Sistemas Informáticos y Computación - Departament de Sistemes Informàtics i Computació	es_ES
dc.contributor.affiliation	Universitat Politècnica de València. Escola Tècnica Superior d'Enginyeria Informàtica	es_ES
dc.description.bibliographicCitation	Miravet Tenés, J. (2024). Generación automatizada de descripciones de imágenes mediante inteligencia artificial. Universitat Politècnica de València. http://hdl.handle.net/10251/210121	es_ES
dc.description.accrualMethod	TFGM	es_ES
dc.relation.pasarela	TFGM\162186	es_ES

Este ítem aparece en la(s) siguiente(s) colección(ones)

ETSINF - Trabajos académicos [5160]
Escola Tècnica Superior d'Enginyeria Informàtica

Mostrar el registro sencillo del ítem

Generación automatizada de descripciones de imágenes mediante inteligencia artificial

RiuNet: Repositorio Institucional de la Universidad Politécnica de Valencia

Buscar en RiuNet

Listar

Todo RiuNet

Esta colección

Mi cuenta

Estadísticas

Ayuda RiuNet

Admin. UPV

Compartir/Enviar a

Citas

Estadísticas

Generación automatizada de descripciones de imágenes mediante inteligencia artificial

Ficheros en el ítem

Este ítem aparece en la(s) siguiente(s) colección(ones)