- -

Synthetic data generation and data augmentation techniques for image captioning with Stable Diffusion and large language models.

RiuNet: Repositorio Institucional de la Universidad Politécnica de Valencia

Compartir/Enviar a

Citas

Estadísticas

  • Estadisticas de Uso

Synthetic data generation and data augmentation techniques for image captioning with Stable Diffusion and large language models.

Mostrar el registro sencillo del ítem

Ficheros en el ítem

dc.contributor.advisor Domingo Ballester, Miguel es_ES
dc.contributor.author Prieto Medina, Daniel Alejandro es_ES
dc.date.accessioned 2024-10-28T11:22:36Z
dc.date.available 2024-10-28T11:22:36Z
dc.date.created 2024-09-27
dc.date.issued 2024-10-28 es_ES
dc.identifier.uri http://hdl.handle.net/10251/210944
dc.description.abstract [ES] Conseguir a gran escala un conjunto de datos de calidad resulta ser una tarea costosa a nivel de recursos y tiempo, en especial cuando son necesarias anotaciones más elaboradas. Esto se ha vuelto un punto de cada vez mayor relevancia, dado que los últimos modelos desarrollados han demostrado necesitar de vastas cantidades de datos para ser entrenados de forma satisfactoria. Esto ha hecho que se invierta mucho más tiempo en desarrollar nuevas y mejores técnicas de aumento de datos . Al trabajar con imágenes, por ejemplo, las técnicas clásicas que se utilizan son las de aplicar transformaciones como rotaciones, acercamientos, recortes, etc., de forma que se aumenta la variabilidad en los datos existentes. Este tipo de técnicas clásicas, a pesar de que aún efectivas, han dejado de ser el foco de atención tras la aparición de los modelos de lenguaje de gran tamaño (LLMs; del inglés large language models) y modelos generativos de imágenes, los cuales han demostrado ser herramientas efectivas en el aumento de datos. La mayoría de los trabajos hoy en día solo se centran en aumentar solo una tipo de dato, en este trabajo se propone aumentar ambos, hablando de forma específica para la tarea de descripción de imágenes. En este sentido, se propone un trabajo en el cual se explore y pruebe la efectividad de las técnicas de aumentos de datos en pareja (imagen-texto) utilizando LLMs y Stable diffusion. Para ello se desarrollará un modelo de descripción de texto, utilizando de backbone un Transformer de Visión o ViT (sus siglas en inglés) y un decodificador basado en redes recurrentes con mecanismos de atención para la salida final, que sirva como base para comparar. Hecho esto se entrenará y comparan los resultados del entrenamiento del modelo utilizando solo los datos reales y utilizando datos sintéticos, en esta fase se hará principal enfoque en cómo se utilizan los modelos generativos para crear ejemplos sintéticos y de qué forma podemos evaluar la calidad de estos mismos, ya que por supuesto no se busca añadir ejemplos que solo generen ruido en nuestro conjunto original. es_ES
dc.description.abstract [EN] To find a large quantity of high-quality data is a very expensive task on terms of both resources and time, specially when more elaborate annotations are needed. This has become a point of increasing relevance, given that the latest models which have been developed require vast amounts of data to be trained satisfactorily. This has led to investing much more time in developing new and better data augmentation techniques. When working with images, for example, the classic techniques used are to apply transformations such as rotations, zooms, crops, etc; in a way that increases the variability in the existing data. These types of classic techniques, while still effective, have ceased to be the focus of attention after the appearance of large language models (LLMs) and generative image models, which have proven to be effective tools for data augmentation. Most works today focus only on increasing one type of data. In this work, we propose to increase both, focusing on the task of image description. In this sense, we propose to explore and test the effectiveness of paired data augmentation techniques (image-text) using LLMs and Stable diffusion. To do this, a text description model will be developed, using a Vision Transformer or ViT (its acronym in English) as a backbone and a decoder based on recurrent networks with attention mechanisms for the final output, which serves as a basis for comparison. Once this is done, the proposal will be evaluated using both only real data and combining it with synthetic data. In this phase, the main focus will be on how generative models are used to create synthetic examples and how we can evaluate the quality. of these, since of course we do not seek to add examples that only generate noise in our original set. es_ES
dc.format.extent 44 es_ES
dc.language Español es_ES
dc.publisher Universitat Politècnica de València es_ES
dc.rights Reconocimiento - No comercial (by-nc) es_ES
dc.subject Descripción de imágenes es_ES
dc.subject Modelos de lenguaje es_ES
dc.subject Stable diffusion es_ES
dc.subject Image captioning es_ES
dc.subject Large language models es_ES
dc.subject.other Máster Universitario en Inteligencia Artificial, Reconocimiento de Formas e Imagen Digital-Màster Universitari en Intel·ligència Artificial, Reconeixement de Formes i Imatge Digital es_ES
dc.title Synthetic data generation and data augmentation techniques for image captioning with Stable Diffusion and large language models. es_ES
dc.title.alternative Synthetic data generation and data augmentation techniques for image captioning with Stable Diffusion and large language models. es_ES
dc.title.alternative Generació de dades sintètiques i tècniques d'augmentació de dades per a descripció d'imatges amb Stable Diffusion i models de llenguatge de gran tamany. es_ES
dc.type Tesis de máster es_ES
dc.rights.accessRights Abierto es_ES
dc.contributor.affiliation Universitat Politècnica de València. Departamento de Sistemas Informáticos y Computación - Departament de Sistemes Informàtics i Computació es_ES
dc.description.bibliographicCitation Prieto Medina, DA. (2024). Synthetic data generation and data augmentation techniques for image captioning with Stable Diffusion and large language models. Universitat Politècnica de València. http://hdl.handle.net/10251/210944 es_ES
dc.description.accrualMethod TFGM es_ES
dc.relation.pasarela TFGM\164606 es_ES


Este ítem aparece en la(s) siguiente(s) colección(ones)

Mostrar el registro sencillo del ítem