Resumen:
|
[ES] Una de las principales áreas de investigación en el ámbito de la computación afectiva es el reconocimiento de emociones. Los esfuerzos multidisciplinares se han enfocado en detectar estados de ánimo considerando ...[+]
[ES] Una de las principales áreas de investigación en el ámbito de la computación afectiva es el reconocimiento de emociones. Los esfuerzos multidisciplinares se han enfocado en detectar estados de ánimo considerando diferentes modalidades de aprendizaje y diferentes fuentes de información como pueden ser la expresión facial, el tono de voz o el tipo de lenguaje empleado. No obstante, estos modelos no son capaces de identificar todas las sutilezas inherentes a la emoción humana. Por este motivo, las últimas líneas de investigación se centran en la combinación de las distintas modalidades individuales para generar un único sistema multimodal. De esta manera, el sistema final reduce las limitaciones subyacentes de cada canal sensorial.
En este trabajo fin de máster se desarrolla un clasificador multimodal para el reconocimiento de emociones combinando la información obtenida a partir de las expresiones faciales, la voz y el análisis del lenguaje. Como propuesta, a partir de los modelos entrenados para cada fuente perceptiva, hemos desarrollado una estrategia multimodal basada en técnicas estadísticas de aprendizaje. La parte experimental se ha realizado considerando sujetos de estudio tanto en español como en inglés.
Los resultados obtenidos nos indican que la mejor estrategia de fusión, basada en un perceptrón multicapa, mejora un 4,35% la precisión global de cada una de las modalidades. Donde además, presenta una mayor consistencia a la hora de reconocer las distintas emociones. Estos resultados suponen un paso hacia el reconocimiento de emociones mediante técnicas multimodales.
[-]
[EN] One of the main areas of research in the field of affective computing is emotion recognition. Multidisciplinary efforts have focused on detecting moods by considering different learning modalities and different sources ...[+]
[EN] One of the main areas of research in the field of affective computing is emotion recognition. Multidisciplinary efforts have focused on detecting moods by considering different learning modalities and different sources of information such as facial expression, tone of voice or the type of language used. However, these models are not able to identify all the subtleties inherent to human emotion. For this reason, the latest lines of research focus on combining the different individual modalities to generate a single multimodal system. In this way, the final system reduces the underlying limitations of each sensory channel.
In this master's thesis, a multimodal classifier for emotion recognition is developed by combining information obtained from facial expressions, voice and speech analysis. As a proposal, from the trained models for each perceptual source, we have developed a multimodal strategy based on statistical learning techniques. The experimental part has been carried out considering study subjects in both Spanish and English.
The results obtained indicate that the best fusion strategy, based on a multilayer perceptron, improves the overall accuracy of each of the modalities by 4.35%. It also shows greater consistency when it comes to recognising different emotions. These results represent a step towards emotion recognition using multimodal techniques.
[-]
|