Synthetic data generation and data augmentation techniques for image captioning with Stable Diffusion and large language models.

Prieto Medina, Daniel Alejandro

RiuNet repositorio UPV
:
Docencia
:
Trabajos académicos
:
Servicio de alumnado - Trabajos académicos
:
Ver ítem

Identificarse

Buscar en RiuNet

Listar

Todo RiuNet
Esta colección

Mi cuenta

Acceder

Estadísticas

Ver Estadísticas de uso

Ayuda RiuNet

Admin. UPV

Compartir/Enviar a

Citas

Estadísticas

Synthetic data generation and data augmentation techniques for image captioning with Stable Diffusion and large language models.

Mostrar el registro completo del ítem

Prieto Medina, DA. (2024). Synthetic data generation and data augmentation techniques for image captioning with Stable Diffusion and large language models. Universitat Politècnica de València. http://hdl.handle.net/10251/210944

Por favor, use este identificador para citar o enlazar este ítem: http://hdl.handle.net/10251/210944

Ficheros en el ítem

Nombre: Prieto - Synthetic ...

Tamaño: 4.664Mb

Formato: PDF

Abrir/Preview

Metadatos del ítem

Título:

Synthetic data generation and data augmentation techniques for image captioning with Stable Diffusion and large language models.

Otro titulo:

Synthetic data generation and data augmentation techniques for image captioning with Stable Diffusion and large language models.
Generació de dades sintètiques i tècniques d'augmentació de dades per a descripció d'imatges amb Stable Diffusion i models de llenguatge de gran tamany.

Autor:

Prieto Medina, Daniel Alejandro

Director(es):

Domingo Ballester, Miguel

Entidad UPV:

Universitat Politècnica de València. Departamento de Sistemas Informáticos y Computación - Departament de Sistemes Informàtics i Computació

Fecha acto/lectura:

2024-09-27

Fecha difusión:

2024-10-28

Resumen:

[ES] Conseguir a gran escala un conjunto de datos de calidad resulta ser una tarea costosa a nivel de recursos y tiempo, en especial cuando son necesarias anotaciones más elaboradas. Esto se ha vuelto un punto de cada vez mayor relevancia, dado que los últimos modelos desarrollados han demostrado necesitar de vastas cantidades de datos para ser entrenados de forma satisfactoria. Esto ha hecho que se invierta mucho más tiempo en desarrollar nuevas y mejores técnicas de aumento de datos . Al trabajar con imágenes, por ejemplo, las técnicas clásicas que se utilizan son las de aplicar transformaciones como rotaciones, acercamientos, recortes, etc., de forma que se aumenta la variabilidad en los datos existentes. Este tipo de técnicas clásicas, a pesar de que aún efectivas, han dejado de ser el foco de atención tras la aparición de los modelos de lenguaje de gran tamaño (LLMs; del inglés large language models) y modelos generativos de imágenes, los cuales han demostrado ser herramientas efectivas en el aumento de datos. La mayoría de los trabajos hoy en día solo se centran en aumentar solo una tipo de dato, en este trabajo se propone aumentar ambos, hablando de forma específica para la tarea de descripción de imágenes. En este sentido, se propone un trabajo en el cual se explore y pruebe la efectividad de las técnicas de aumentos de datos en pareja (imagen-texto) utilizando LLMs y Stable diffusion. Para ello se desarrollará un modelo de descripción de texto, utilizando de backbone un Transformer de Visión o ViT (sus siglas en inglés) y un decodificador basado en redes recurrentes con mecanismos de atención para la salida final, que sirva como base para comparar. Hecho esto se entrenará y comparan los resultados del entrenamiento del modelo utilizando solo los datos reales y utilizando datos sintéticos, en esta fase se hará principal enfoque en cómo se utilizan los modelos generativos para crear ejemplos sintéticos y de qué forma podemos evaluar la calidad de estos mismos, ya que por supuesto no se busca añadir ejemplos que solo generen ruido en nuestro conjunto original. [-]

[EN] To find a large quantity of high-quality data is a very expensive task on terms of both resources and time, specially when more elaborate annotations are needed. This has become a point of increasing relevance, given ...[+]

Palabras clave:

Descripción de imágenes , Modelos de lenguaje , Stable diffusion , Image captioning , Large language models

Derechos de uso:

Reconocimiento - No comercial (by-nc)

Editorial:

Universitat Politècnica de València

Titulación:

Máster Universitario en Inteligencia Artificial, Reconocimiento de Formas e Imagen Digital-Màster Universitari en Intel·ligència Artificial, Reconeixement de Formes i Imatge Digital

Tipo:

Tesis de máster

recommendations

Este ítem aparece en la(s) siguiente(s) colección(ones)

Servicio de alumnado - Trabajos académicos [7391]

Mostrar el registro completo del ítem

Synthetic data generation and data augmentation techniques for image captioning with Stable Diffusion and large language models.

RiuNet: Repositorio Institucional de la Universidad Politécnica de Valencia

Buscar en RiuNet

Listar

Todo RiuNet

Esta colección

Mi cuenta

Estadísticas

Ayuda RiuNet

Admin. UPV

Compartir/Enviar a

Citas

Estadísticas

Synthetic data generation and data augmentation techniques for image captioning with Stable Diffusion and large language models.

Ficheros en el ítem

Metadatos del ítem

recommendations

Este ítem aparece en la(s) siguiente(s) colección(ones)