[ES] Ser capaz de leer e interpretar estados afectivos juega un papel importante en la sociedad. Sin embargo, esto es difícil en algunas situaciones, especialmente cuando la información se limita a señales vocales o visuales. ...[+]
[ES] Ser capaz de leer e interpretar estados afectivos juega un papel importante en la sociedad. Sin embargo, esto es difícil en algunas situaciones, especialmente cuando la información se limita a señales vocales o visuales. Muchos investigadores han investigado las llamadas emociones básicas de forma supervisada. Este trabajo fin de máster contiene los resultados de un estudio multimodal supervisado y no supervisado de un número más realista de emociones. Con ese fin, las características de audio y video se extraen del conjunto de datos GEMEP empleando openSMILE y OpenFace, respectivamente. El enfoque supervisado incluye la comparación de múltiples soluciones y demuestra que las configuraciones multimodales pueden superar a las unimodales, incluso con un mayor número de estados afectivos. El enfoque no supervisado abarca un método tradicional y otro exploratorio para encontrar patrones significativos en el conjunto de datos multimodal. También se emplea un procedimiento innovador que facilita la interpretación de los resultados dados por las técnicas de agrupación sin supervisión.
[-]
[EN] Being able to read and interpret affective states plays a significant role in human society. However, this is difficult in some situations, especially when information is limited to either vocal or visual cues. Many ...[+]
[EN] Being able to read and interpret affective states plays a significant role in human society. However, this is difficult in some situations, especially when information is limited to either vocal or visual cues. Many researchers have investigated the so-called basic emotions in a supervised way. This thesis holds the results of a multimodal supervised and unsupervised study of a more realistic number of emotions. To that end, audio and video features are extracted from the GEMEP dataset employing openSMILE and OpenFace, respectively. The supervised approach includes the comparison of multiple solutions and proves that multimodal pipelines can outperform unimodal ones, even with a higher number of affective states. The unsupervised approach embraces a traditional and an exploratory method to find meaningful patterns in the multimodal dataset. It also contains an innovative procedure to better understand the output of clustering techniques.
[-]
|