Synthetic data generation and data augmentation techniques for image captioning with Stable Diffusion and large language models.

Prieto Medina, Daniel Alejandro

RiuNet repositorio UPV
:
Docencia
:
Trabajos académicos
:
Servicio de alumnado - Trabajos académicos
:
Ver ítem

Identificarse

Buscar en RiuNet

Listar

Todo RiuNet
Esta colección

Mi cuenta

Acceder

Estadísticas

Ver Estadísticas de uso

Ayuda RiuNet

Admin. UPV

Compartir/Enviar a

Citas

Estadísticas

Synthetic data generation and data augmentation techniques for image captioning with Stable Diffusion and large language models.

Mostrar el registro sencillo del ítem

Ficheros en el ítem

Nombre: Prieto - Synthetic ...

Tamaño: 4.664Mb

Formato: PDF

Abrir

dc.contributor.advisor	Domingo Ballester, Miguel	es_ES
dc.contributor.author	Prieto Medina, Daniel Alejandro	es_ES
dc.date.accessioned	2024-10-28T11:22:36Z
dc.date.available	2024-10-28T11:22:36Z
dc.date.created	2024-09-27
dc.date.issued	2024-10-28	es_ES
dc.identifier.uri	http://hdl.handle.net/10251/210944
dc.description.abstract	[ES] Conseguir a gran escala un conjunto de datos de calidad resulta ser una tarea costosa a nivel de recursos y tiempo, en especial cuando son necesarias anotaciones más elaboradas. Esto se ha vuelto un punto de cada vez mayor relevancia, dado que los últimos modelos desarrollados han demostrado necesitar de vastas cantidades de datos para ser entrenados de forma satisfactoria. Esto ha hecho que se invierta mucho más tiempo en desarrollar nuevas y mejores técnicas de aumento de datos . Al trabajar con imágenes, por ejemplo, las técnicas clásicas que se utilizan son las de aplicar transformaciones como rotaciones, acercamientos, recortes, etc., de forma que se aumenta la variabilidad en los datos existentes. Este tipo de técnicas clásicas, a pesar de que aún efectivas, han dejado de ser el foco de atención tras la aparición de los modelos de lenguaje de gran tamaño (LLMs; del inglés large language models) y modelos generativos de imágenes, los cuales han demostrado ser herramientas efectivas en el aumento de datos. La mayoría de los trabajos hoy en día solo se centran en aumentar solo una tipo de dato, en este trabajo se propone aumentar ambos, hablando de forma específica para la tarea de descripción de imágenes. En este sentido, se propone un trabajo en el cual se explore y pruebe la efectividad de las técnicas de aumentos de datos en pareja (imagen-texto) utilizando LLMs y Stable diffusion. Para ello se desarrollará un modelo de descripción de texto, utilizando de backbone un Transformer de Visión o ViT (sus siglas en inglés) y un decodificador basado en redes recurrentes con mecanismos de atención para la salida final, que sirva como base para comparar. Hecho esto se entrenará y comparan los resultados del entrenamiento del modelo utilizando solo los datos reales y utilizando datos sintéticos, en esta fase se hará principal enfoque en cómo se utilizan los modelos generativos para crear ejemplos sintéticos y de qué forma podemos evaluar la calidad de estos mismos, ya que por supuesto no se busca añadir ejemplos que solo generen ruido en nuestro conjunto original.	es_ES
dc.description.abstract	[EN] To find a large quantity of high-quality data is a very expensive task on terms of both resources and time, specially when more elaborate annotations are needed. This has become a point of increasing relevance, given that the latest models which have been developed require vast amounts of data to be trained satisfactorily. This has led to investing much more time in developing new and better data augmentation techniques. When working with images, for example, the classic techniques used are to apply transformations such as rotations, zooms, crops, etc; in a way that increases the variability in the existing data. These types of classic techniques, while still effective, have ceased to be the focus of attention after the appearance of large language models (LLMs) and generative image models, which have proven to be effective tools for data augmentation. Most works today focus only on increasing one type of data. In this work, we propose to increase both, focusing on the task of image description. In this sense, we propose to explore and test the effectiveness of paired data augmentation techniques (image-text) using LLMs and Stable diffusion. To do this, a text description model will be developed, using a Vision Transformer or ViT (its acronym in English) as a backbone and a decoder based on recurrent networks with attention mechanisms for the final output, which serves as a basis for comparison. Once this is done, the proposal will be evaluated using both only real data and combining it with synthetic data. In this phase, the main focus will be on how generative models are used to create synthetic examples and how we can evaluate the quality. of these, since of course we do not seek to add examples that only generate noise in our original set.	es_ES
dc.format.extent	44	es_ES
dc.language	Español	es_ES
dc.publisher	Universitat Politècnica de València	es_ES
dc.rights	Reconocimiento - No comercial (by-nc)	es_ES
dc.subject	Descripción de imágenes	es_ES
dc.subject	Modelos de lenguaje	es_ES
dc.subject	Stable diffusion	es_ES
dc.subject	Image captioning	es_ES
dc.subject	Large language models	es_ES
dc.subject.other	Máster Universitario en Inteligencia Artificial, Reconocimiento de Formas e Imagen Digital-Màster Universitari en Intel·ligència Artificial, Reconeixement de Formes i Imatge Digital	es_ES
dc.title	Synthetic data generation and data augmentation techniques for image captioning with Stable Diffusion and large language models.	es_ES
dc.title.alternative	Synthetic data generation and data augmentation techniques for image captioning with Stable Diffusion and large language models.	es_ES
dc.title.alternative	Generació de dades sintètiques i tècniques d'augmentació de dades per a descripció d'imatges amb Stable Diffusion i models de llenguatge de gran tamany.	es_ES
dc.type	Tesis de máster	es_ES
dc.rights.accessRights	Abierto	es_ES
dc.contributor.affiliation	Universitat Politècnica de València. Departamento de Sistemas Informáticos y Computación - Departament de Sistemes Informàtics i Computació	es_ES
dc.description.bibliographicCitation	Prieto Medina, DA. (2024). Synthetic data generation and data augmentation techniques for image captioning with Stable Diffusion and large language models. Universitat Politècnica de València. http://hdl.handle.net/10251/210944	es_ES
dc.description.accrualMethod	TFGM	es_ES
dc.relation.pasarela	TFGM\164606	es_ES

Este ítem aparece en la(s) siguiente(s) colección(ones)

Servicio de alumnado - Trabajos académicos [7391]

Mostrar el registro sencillo del ítem

Synthetic data generation and data augmentation techniques for image captioning with Stable Diffusion and large language models.

RiuNet: Repositorio Institucional de la Universidad Politécnica de Valencia

Buscar en RiuNet

Listar

Todo RiuNet

Esta colección

Mi cuenta

Estadísticas

Ayuda RiuNet

Admin. UPV

Compartir/Enviar a

Citas

Estadísticas

Synthetic data generation and data augmentation techniques for image captioning with Stable Diffusion and large language models.

Ficheros en el ítem

Este ítem aparece en la(s) siguiente(s) colección(ones)