Resumen:
|
[ES] La comunicación mediante el habla permite a los individuos transmitir no sólo información lingüística, sino también su estado emocional, de forma eficaz y natural. El reconocimiento automático del estado emocional de ...[+]
[ES] La comunicación mediante el habla permite a los individuos transmitir no sólo información lingüística, sino también su estado emocional, de forma eficaz y natural. El reconocimiento automático del estado emocional de un individuo a partir de su voz ha dado lugar a un campo de investigación denominado Reconocimiento de Emociones del Habla (del inglés, Speech Emotion Recognition, SER), con aplicaciones en diversas áreas, como la interacción persona-ordenador o la investigación médica. Esta tesis explora el reconocimiento de las emociones del habla utilizando algoritmos de aprendizaje automático supervisado. A diferencia de la mayoría de las investigaciones en este campo, que utilizan bases de datos basadas en emociones actuadas o inducidas, en este proyecto se recopiló primero una base de datos de habla emocional natural para desarrollar modelos de reconocimiento de emociones del habla aplicables en situaciones de la vida real. La base de datos, denominada Vocal Social Media (VOSOME), contenía mensajes de audio procedentes de conversaciones reales de WhatsApp de 100 hablantes españoles, que fueron etiquetados posteriormente en las dimensiones de excitación y valencia de las emociones. Se implementaron dos enfoques de modelado: técnicas clásicas de aprendizaje automático basadas en funciones estadísticas de alto nivel calculadas a partir de características acústicas, y modelos de aprendizaje profundo basados tanto en estadísticas como en descriptores de bajo nivel extraídos de los audios. En concreto, se utilizaron máquinas de vectores de soporte y k-vecinos más cercanos como algoritmos clásicos, mientras que como enfoques de aprendizaje profundo se implementaron redes neuronales artificiales y redes de memoria a corto plazo. Las mismas técnicas de modelado se aplicaron a una conocida base de datos pública llamada RAVDESS, representativa de las típicas bases de datos de habla emocional actuada, para comparar los resultados.
[-]
[EN] Speech communication allows individuals to convey not only linguistic information but also their emotional state in an efficient and natural way. The automatic recognition of an individual's emotional state from their ...[+]
[EN] Speech communication allows individuals to convey not only linguistic information but also their emotional state in an efficient and natural way. The automatic recognition of an individual's emotional state from their voice has given rise to a field of research called Speech Emotion Recognition (SER), with applications in several areas such as human-computer interaction or medical research. This thesis explores speech emotion recognition using supervised machine learning algorithms. Unlike most research in this field, which uses databases based on acted or induced emotions, in this project a database of natural emotional speech was first collected in order to develop speech emotion recognition models applicable in real-life situations. The database, called Vocal Social Media (VOSOME), included audio messages from real WhatsApp conversations of 100 Spanish speakers that were subsequently labelled on the arousal and valence dimensions of emotions. Two modelling approaches were implemented: classical machine learning techniques based on high-level statistics functions computed from acoustic features, and deep learning models based on both statistics and low-level descriptors extracted from the audios. In particular, Support Vector Machines and k-Nearest Neighbor were used as classical algorithms, while Artificial Neural Networks and Long Short-Term Memory models were implemented as deep learning approaches. The same modelling techniques were applied to a well-known public database called RAVDESS, representative of the typical acted emotional speech databases, to compare the results.
[-]
|