[ES] El problema de la síntesis de imágenes ha ganado mucha atención en los últimos años por la aparición de modelos de difusión capaces de generar imágenes con una calidad y variedad sin precedentes.
En este trabajo ...[+]
[ES] El problema de la síntesis de imágenes ha ganado mucha atención en los últimos años por la aparición de modelos de difusión capaces de generar imágenes con una calidad y variedad sin precedentes.
En este trabajo analizaremos qué son los modelos de difusión, cómo pueden generar imágenes, qué mecanismos existen para condicionar este tipo de modelos, qué papel juega la arquitectura Transformer en estos modelos y en su condicionamiento; y qué métricas se utilizan para evaluar modelos de difusión.
Evaluaremos y compararemos el desempeño de diferentes modelos de difusión (DDPM condicionado por atributos y Stable Diffusion condicionado por texto) en la tarea de síntesis de imágenes, en concreto síntesis condicional de caras. Evaluaremos tanto la calidad de las imágenes generadas como la fidelidad con la que los distintos modelos de difusión se ajustan al condicionamiento.
La métrica más utilizada para medir la calidad del condicionamiento en modelos generativos de imágenes es CLIP Score aunque esta métrica está limitada a modelos que generan imágenes a partir de texto y utiliza el modelo CLIP por lo que está sujeta al sesgo que pueda tener este modelo. Para reforzar los resultados de la evaluación entrenaremos un modelo que estime la condición usada a partir de la imagen generada con el objetivo de usar este modelo como métrica complementaria a CLIP Score.
[-]
[EN] The problem of image synthesis has gained much attention in recent years due to the emergence of diffusion models capable of generating images with unprecedented quality and variety.
In this paper we will analyze ...[+]
[EN] The problem of image synthesis has gained much attention in recent years due to the emergence of diffusion models capable of generating images with unprecedented quality and variety.
In this paper we will analyze what diffusion models are, how they can generate images, what mechanisms exist to condition this type of models, what role the Transformer architecture plays in these models and in their conditioning; and what metrics are used to evaluate diffusion models.
We will evaluate and compare the performance of different diffusion models (attribute-conditioned DDPM and text-conditioned Stable Diffusion) on the task of image synthesis, specifically conditional face synthesis. We will evaluate both the quality of the generated images and the fidelity with which the different diffusion models match the conditioning.
The most commonly used metric to measure the quality of conditioning in image generative models is CLIP Score although this metric is limited to models that generate images from text and uses the CLIP model so it is subject to the bias that this model may have. To strengthen the evaluation results we will train a model that estimates the condition used from the generated image in order to use this model as a complementary metric to CLIP Score.
[-]
|