- -

Speech emotion recognition from voice messages recorded in real WhatsApp conversations

RiuNet: Repositorio Institucional de la Universidad Politécnica de Valencia

Compartir/Enviar a

Citas

Estadísticas

  • Estadisticas de Uso

Speech emotion recognition from voice messages recorded in real WhatsApp conversations

Mostrar el registro sencillo del ítem

Ficheros en el ítem

dc.contributor.advisor Castro Bleda, María José es_ES
dc.contributor.advisor Marín Morales, Javier es_ES
dc.contributor.author Gómez Zaragozá, Lucía es_ES
dc.date.accessioned 2021-10-19T10:34:34Z
dc.date.available 2021-10-19T10:34:34Z
dc.date.created 2021-09-24
dc.date.issued 2021-10-19 es_ES
dc.identifier.uri http://hdl.handle.net/10251/174963
dc.description.abstract [ES] La comunicación mediante el habla permite a los individuos transmitir no sólo información lingüística, sino también su estado emocional, de forma eficaz y natural. El reconocimiento automático del estado emocional de un individuo a partir de su voz ha dado lugar a un campo de investigación denominado Reconocimiento de Emociones del Habla (del inglés, Speech Emotion Recognition, SER), con aplicaciones en diversas áreas, como la interacción persona-ordenador o la investigación médica. Esta tesis explora el reconocimiento de las emociones del habla utilizando algoritmos de aprendizaje automático supervisado. A diferencia de la mayoría de las investigaciones en este campo, que utilizan bases de datos basadas en emociones actuadas o inducidas, en este proyecto se recopiló primero una base de datos de habla emocional natural para desarrollar modelos de reconocimiento de emociones del habla aplicables en situaciones de la vida real. La base de datos, denominada Vocal Social Media (VOSOME), contenía mensajes de audio procedentes de conversaciones reales de WhatsApp de 100 hablantes españoles, que fueron etiquetados posteriormente en las dimensiones de excitación y valencia de las emociones. Se implementaron dos enfoques de modelado: técnicas clásicas de aprendizaje automático basadas en funciones estadísticas de alto nivel calculadas a partir de características acústicas, y modelos de aprendizaje profundo basados tanto en estadísticas como en descriptores de bajo nivel extraídos de los audios. En concreto, se utilizaron máquinas de vectores de soporte y k-vecinos más cercanos como algoritmos clásicos, mientras que como enfoques de aprendizaje profundo se implementaron redes neuronales artificiales y redes de memoria a corto plazo. Las mismas técnicas de modelado se aplicaron a una conocida base de datos pública llamada RAVDESS, representativa de las típicas bases de datos de habla emocional actuada, para comparar los resultados. es_ES
dc.description.abstract [EN] Speech communication allows individuals to convey not only linguistic information but also their emotional state in an efficient and natural way. The automatic recognition of an individual's emotional state from their voice has given rise to a field of research called Speech Emotion Recognition (SER), with applications in several areas such as human-computer interaction or medical research. This thesis explores speech emotion recognition using supervised machine learning algorithms. Unlike most research in this field, which uses databases based on acted or induced emotions, in this project a database of natural emotional speech was first collected in order to develop speech emotion recognition models applicable in real-life situations. The database, called Vocal Social Media (VOSOME), included audio messages from real WhatsApp conversations of 100 Spanish speakers that were subsequently labelled on the arousal and valence dimensions of emotions. Two modelling approaches were implemented: classical machine learning techniques based on high-level statistics functions computed from acoustic features, and deep learning models based on both statistics and low-level descriptors extracted from the audios. In particular, Support Vector Machines and k-Nearest Neighbor were used as classical algorithms, while Artificial Neural Networks and Long Short-Term Memory models were implemented as deep learning approaches. The same modelling techniques were applied to a well-known public database called RAVDESS, representative of the typical acted emotional speech databases, to compare the results. es_ES
dc.format.extent 72 es_ES
dc.language Inglés es_ES
dc.publisher Universitat Politècnica de València es_ES
dc.rights Reserva de todos los derechos es_ES
dc.subject Valencia emocional es_ES
dc.subject Excitación emocional es_ES
dc.subject Reconocimiento de emociones del habla es_ES
dc.subject Base de datos natural es_ES
dc.subject Aprendizaje automático es_ES
dc.subject Aprendizaje profundo es_ES
dc.subject Speech emotion recognition es_ES
dc.subject Natural database es_ES
dc.subject Machine learning es_ES
dc.subject Deep learning es_ES
dc.subject Emotional arousal es_ES
dc.subject Emotional valence es_ES
dc.subject.classification LENGUAJES Y SISTEMAS INFORMATICOS es_ES
dc.subject.classification ESTADISTICA E INVESTIGACION OPERATIVA es_ES
dc.subject.other Máster Universitario en Inteligencia Artificial, Reconocimiento de Formas e Imagen Digital-Màster Universitari en Intel·Ligència Artificial: Reconeixement de Formes i Imatge Digital es_ES
dc.title Speech emotion recognition from voice messages recorded in real WhatsApp conversations es_ES
dc.type Tesis de máster es_ES
dc.rights.accessRights Cerrado es_ES
dc.contributor.affiliation Universitat Politècnica de València. Departamento de Sistemas Informáticos y Computación - Departament de Sistemes Informàtics i Computació es_ES
dc.description.bibliographicCitation Gómez Zaragozá, L. (2021). Speech emotion recognition from voice messages recorded in real WhatsApp conversations. Universitat Politècnica de València. http://hdl.handle.net/10251/174963 es_ES
dc.description.accrualMethod TFGM es_ES
dc.relation.pasarela TFGM\142365 es_ES


Este ítem aparece en la(s) siguiente(s) colección(ones)

Mostrar el registro sencillo del ítem