Mostrar el registro sencillo del ítem
dc.contributor.advisor | Domingo Ballester, Miguel | es_ES |
dc.contributor.author | Prieto Medina, Daniel Alejandro | es_ES |
dc.date.accessioned | 2024-10-28T11:22:36Z | |
dc.date.available | 2024-10-28T11:22:36Z | |
dc.date.created | 2024-09-27 | |
dc.date.issued | 2024-10-28 | es_ES |
dc.identifier.uri | http://hdl.handle.net/10251/210944 | |
dc.description.abstract | [ES] Conseguir a gran escala un conjunto de datos de calidad resulta ser una tarea costosa a nivel de recursos y tiempo, en especial cuando son necesarias anotaciones más elaboradas. Esto se ha vuelto un punto de cada vez mayor relevancia, dado que los últimos modelos desarrollados han demostrado necesitar de vastas cantidades de datos para ser entrenados de forma satisfactoria. Esto ha hecho que se invierta mucho más tiempo en desarrollar nuevas y mejores técnicas de aumento de datos . Al trabajar con imágenes, por ejemplo, las técnicas clásicas que se utilizan son las de aplicar transformaciones como rotaciones, acercamientos, recortes, etc., de forma que se aumenta la variabilidad en los datos existentes. Este tipo de técnicas clásicas, a pesar de que aún efectivas, han dejado de ser el foco de atención tras la aparición de los modelos de lenguaje de gran tamaño (LLMs; del inglés large language models) y modelos generativos de imágenes, los cuales han demostrado ser herramientas efectivas en el aumento de datos. La mayoría de los trabajos hoy en día solo se centran en aumentar solo una tipo de dato, en este trabajo se propone aumentar ambos, hablando de forma específica para la tarea de descripción de imágenes. En este sentido, se propone un trabajo en el cual se explore y pruebe la efectividad de las técnicas de aumentos de datos en pareja (imagen-texto) utilizando LLMs y Stable diffusion. Para ello se desarrollará un modelo de descripción de texto, utilizando de backbone un Transformer de Visión o ViT (sus siglas en inglés) y un decodificador basado en redes recurrentes con mecanismos de atención para la salida final, que sirva como base para comparar. Hecho esto se entrenará y comparan los resultados del entrenamiento del modelo utilizando solo los datos reales y utilizando datos sintéticos, en esta fase se hará principal enfoque en cómo se utilizan los modelos generativos para crear ejemplos sintéticos y de qué forma podemos evaluar la calidad de estos mismos, ya que por supuesto no se busca añadir ejemplos que solo generen ruido en nuestro conjunto original. | es_ES |
dc.description.abstract | [EN] To find a large quantity of high-quality data is a very expensive task on terms of both resources and time, specially when more elaborate annotations are needed. This has become a point of increasing relevance, given that the latest models which have been developed require vast amounts of data to be trained satisfactorily. This has led to investing much more time in developing new and better data augmentation techniques. When working with images, for example, the classic techniques used are to apply transformations such as rotations, zooms, crops, etc; in a way that increases the variability in the existing data. These types of classic techniques, while still effective, have ceased to be the focus of attention after the appearance of large language models (LLMs) and generative image models, which have proven to be effective tools for data augmentation. Most works today focus only on increasing one type of data. In this work, we propose to increase both, focusing on the task of image description. In this sense, we propose to explore and test the effectiveness of paired data augmentation techniques (image-text) using LLMs and Stable diffusion. To do this, a text description model will be developed, using a Vision Transformer or ViT (its acronym in English) as a backbone and a decoder based on recurrent networks with attention mechanisms for the final output, which serves as a basis for comparison. Once this is done, the proposal will be evaluated using both only real data and combining it with synthetic data. In this phase, the main focus will be on how generative models are used to create synthetic examples and how we can evaluate the quality. of these, since of course we do not seek to add examples that only generate noise in our original set. | es_ES |
dc.format.extent | 44 | es_ES |
dc.language | Español | es_ES |
dc.publisher | Universitat Politècnica de València | es_ES |
dc.rights | Reconocimiento - No comercial (by-nc) | es_ES |
dc.subject | Descripción de imágenes | es_ES |
dc.subject | Modelos de lenguaje | es_ES |
dc.subject | Stable diffusion | es_ES |
dc.subject | Image captioning | es_ES |
dc.subject | Large language models | es_ES |
dc.subject.other | Máster Universitario en Inteligencia Artificial, Reconocimiento de Formas e Imagen Digital-Màster Universitari en Intel·ligència Artificial, Reconeixement de Formes i Imatge Digital | es_ES |
dc.title | Synthetic data generation and data augmentation techniques for image captioning with Stable Diffusion and large language models. | es_ES |
dc.title.alternative | Synthetic data generation and data augmentation techniques for image captioning with Stable Diffusion and large language models. | es_ES |
dc.title.alternative | Generació de dades sintètiques i tècniques d'augmentació de dades per a descripció d'imatges amb Stable Diffusion i models de llenguatge de gran tamany. | es_ES |
dc.type | Tesis de máster | es_ES |
dc.rights.accessRights | Abierto | es_ES |
dc.contributor.affiliation | Universitat Politècnica de València. Departamento de Sistemas Informáticos y Computación - Departament de Sistemes Informàtics i Computació | es_ES |
dc.description.bibliographicCitation | Prieto Medina, DA. (2024). Synthetic data generation and data augmentation techniques for image captioning with Stable Diffusion and large language models. Universitat Politècnica de València. http://hdl.handle.net/10251/210944 | es_ES |
dc.description.accrualMethod | TFGM | es_ES |
dc.relation.pasarela | TFGM\164606 | es_ES |