Resumen:
|
[ES] La diarizaci´on de locutores (SD, por su denominaci´on en ingl´es: Speaker Diarization)
es una ´area de investigaci´on en constante evoluci´on. Se centra en el desarrollo de
sistemas de segmentaci´on autom´atica de ...[+]
[ES] La diarizaci´on de locutores (SD, por su denominaci´on en ingl´es: Speaker Diarization)
es una ´area de investigaci´on en constante evoluci´on. Se centra en el desarrollo de
sistemas de segmentaci´on autom´atica de se˜nales ac´usticas en funci´on de los locutores
que intervienen en ellas. Esta tarea se explica habitualmente, de manera simple, en ser
capaz de responder a la pregunta: "¿Qui´en ha hablado en cada momento?". Durante
a˜nos este campo se ha basado en la utilizaci´on de t´ecnicas cl´asicas de procesamiento
de audio para las distintas subtareas que compon´ıan la diarizaci´on de locutores. Esto
ha ido cambiando durante los ´ultimos a˜nos con el aumento de la popularidad de las
redes neuronales y, actualmente, los sistemas de diarizaci´on de locutores se basan en
t´ecnicas de aprendizaje profundo [1], como redes neuronales recurrentes.
En este trabajo se propone hacer una revisi´on del estado del arte en diarizaci´on
de locutores para as´ı seleccionar algunas de las mejores t´ecnicas actuales y adaptarlas
a la subtitulaci´on de medios audiovisuales en valenciano y castellano. La evaluaci´on
experimental se basa en tareas y datos en las cuales ha trabajado recientemente el
Machine Learning and Language Processing Group (MLLP). En concreto, se hace
con datos de Radio y Televisi´on Espa˜nola (RTVE) y de la Corporaci´o Valenciana de
Mitjans de Comunicaci´o (CVMC).
[-]
[CA] La diferenciació automàtica de locutors (SD, per la seua denominació en anglés: Speaker Diarization) és una àrea de recerca en constant evolució. Es centra en el desenvolupament de sistemes de segmentació automàtica ...[+]
[CA] La diferenciació automàtica de locutors (SD, per la seua denominació en anglés: Speaker Diarization) és una àrea de recerca en constant evolució. Es centra en el desenvolupament de sistemes de segmentació automàtica de senyals acústics en funció dels locutors que hi intervenen. Esta tasca s'explica habitualment, de manera simple, en ser capaç de respondre a la pregunta: "Qui ha parlat en cada moment?". Durant anys aquest camp s'ha basat en la utilització de tècniques clàssiques de processament d'àudio per a les diferents subtasques que componien la diferenciació automàtica de locutors. Açò ha anat canviant durant els últims anys amb l'augment de la popularitat de les xarxes neuronals i, actualment, els sistemes de diferenciació automàtica de locutors es basen en tècniques d'aprenentatge profund, com ara xarxes neuronals recurrents. En aquest treball es proposa fer una revisió de l'estat de l'art en diferenciació automàtica de locutors per tal de seleccionar algunes de les millors tècniques actuals i adaptar-les a la subtitulació de mitjans audiovisuals en valencià i castellà. L'avaluació experimental es basa en tasques i dades en les quals ha treballat recentment el Machine Learning and Language Processing Group (MLLP). En particular, es fa amb dades de Radio y Televisión Española (RTVE) i de la Corporació Valenciana de Mitjans de Comunicació (CVMC).
[-]
[EN] Speaker Diarization is a constantly evolving research field. It focuses on the development of automatic systems capable of segmenting acoustic signals according to the speakers who intervene in them. This task is ...[+]
[EN] Speaker Diarization is a constantly evolving research field. It focuses on the development of automatic systems capable of segmenting acoustic signals according to the speakers who intervene in them. This task is commonly explained, in a simple way, as being able to respond to the question: "Who spoke when?". This field has been based, for many years, on the use of classical audio processing techniques to perform the subtasks which composed Speaker Diarization. This fact has been changing during these last years due to the rise in popularity experienced by neural networks and, nowadays, Speaker Diarization systems are mainly based on deep learning techniques, such as Recurrent Neural Networks.
This work aims to explore the state of the art of Speaker Diarization in order to select some of the most promising techniques and adapt them to audiovisual media subtitling in Valencian and Spanish. The experimental evaluation is based on tasks and data used by the Machine Learning and Language Processing Group (MLLP) in recent projects and challenges. In particular, it is conducted with data from Radio y Televisión Española (RTVE) and Corporació Valenciana de Mitjans de Comunicació (CVMC).
[-]
|