- -

Automatic speaker diarization based on deep learning and its application to audiovisual subtitling

RiuNet: Repositorio Institucional de la Universidad Politécnica de Valencia

Compartir/Enviar a

Citas

Estadísticas

  • Estadisticas de Uso

Automatic speaker diarization based on deep learning and its application to audiovisual subtitling

Mostrar el registro sencillo del ítem

Ficheros en el ítem

dc.contributor.advisor Juan Císcar, Alfonso es_ES
dc.contributor.advisor Silvestre Cerdà, Joan Albert es_ES
dc.contributor.author Cano Caravaca, Vicent es_ES
dc.date.accessioned 2023-10-06T08:09:21Z
dc.date.available 2023-10-06T08:09:21Z
dc.date.created 2023-09-21
dc.date.issued 2023-10-06 es_ES
dc.identifier.uri http://hdl.handle.net/10251/197788
dc.description.abstract [ES] La diarizaci´on de locutores (SD, por su denominaci´on en ingl´es: Speaker Diarization) es una ´area de investigaci´on en constante evoluci´on. Se centra en el desarrollo de sistemas de segmentaci´on autom´atica de se˜nales ac´usticas en funci´on de los locutores que intervienen en ellas. Esta tarea se explica habitualmente, de manera simple, en ser capaz de responder a la pregunta: "¿Qui´en ha hablado en cada momento?". Durante a˜nos este campo se ha basado en la utilizaci´on de t´ecnicas cl´asicas de procesamiento de audio para las distintas subtareas que compon´ıan la diarizaci´on de locutores. Esto ha ido cambiando durante los ´ultimos a˜nos con el aumento de la popularidad de las redes neuronales y, actualmente, los sistemas de diarizaci´on de locutores se basan en t´ecnicas de aprendizaje profundo [1], como redes neuronales recurrentes. En este trabajo se propone hacer una revisi´on del estado del arte en diarizaci´on de locutores para as´ı seleccionar algunas de las mejores t´ecnicas actuales y adaptarlas a la subtitulaci´on de medios audiovisuales en valenciano y castellano. La evaluaci´on experimental se basa en tareas y datos en las cuales ha trabajado recientemente el Machine Learning and Language Processing Group (MLLP). En concreto, se hace con datos de Radio y Televisi´on Espa˜nola (RTVE) y de la Corporaci´o Valenciana de Mitjans de Comunicaci´o (CVMC). es_ES
dc.description.abstract [CA] La diferenciació automàtica de locutors (SD, per la seua denominació en anglés: Speaker Diarization) és una àrea de recerca en constant evolució. Es centra en el desenvolupament de sistemes de segmentació automàtica de senyals acústics en funció dels locutors que hi intervenen. Esta tasca s'explica habitualment, de manera simple, en ser capaç de respondre a la pregunta: "Qui ha parlat en cada moment?". Durant anys aquest camp s'ha basat en la utilització de tècniques clàssiques de processament d'àudio per a les diferents subtasques que componien la diferenciació automàtica de locutors. Açò ha anat canviant durant els últims anys amb l'augment de la popularitat de les xarxes neuronals i, actualment, els sistemes de diferenciació automàtica de locutors es basen en tècniques d'aprenentatge profund, com ara xarxes neuronals recurrents. En aquest treball es proposa fer una revisió de l'estat de l'art en diferenciació automàtica de locutors per tal de seleccionar algunes de les millors tècniques actuals i adaptar-les a la subtitulació de mitjans audiovisuals en valencià i castellà. L'avaluació experimental es basa en tasques i dades en les quals ha treballat recentment el Machine Learning and Language Processing Group (MLLP). En particular, es fa amb dades de Radio y Televisión Española (RTVE) i de la Corporació Valenciana de Mitjans de Comunicació (CVMC). es_ES
dc.description.abstract [EN] Speaker Diarization is a constantly evolving research field. It focuses on the development of automatic systems capable of segmenting acoustic signals according to the speakers who intervene in them. This task is commonly explained, in a simple way, as being able to respond to the question: "Who spoke when?". This field has been based, for many years, on the use of classical audio processing techniques to perform the subtasks which composed Speaker Diarization. This fact has been changing during these last years due to the rise in popularity experienced by neural networks and, nowadays, Speaker Diarization systems are mainly based on deep learning techniques, such as Recurrent Neural Networks. This work aims to explore the state of the art of Speaker Diarization in order to select some of the most promising techniques and adapt them to audiovisual media subtitling in Valencian and Spanish. The experimental evaluation is based on tasks and data used by the Machine Learning and Language Processing Group (MLLP) in recent projects and challenges. In particular, it is conducted with data from Radio y Televisión Española (RTVE) and Corporació Valenciana de Mitjans de Comunicació (CVMC). es_ES
dc.format.extent 76 es_ES
dc.language Catalán es_ES
dc.publisher Universitat Politècnica de València es_ES
dc.rights Reconocimiento - No comercial - Compartir igual (by-nc-sa) es_ES
dc.subject Reconocimiento automático del habla (ASR) es_ES
dc.subject Diferenciació automàtica de locutors es_ES
dc.subject Aprenentatge automàtic es_ES
dc.subject Aprenentatge profund. es_ES
dc.subject Speaker diarization es_ES
dc.subject Machine learning es_ES
dc.subject Deep learning es_ES
dc.subject Automatic Speech Recognition (ASR) es_ES
dc.subject.classification LENGUAJES Y SISTEMAS INFORMATICOS es_ES
dc.subject.other Máster Universitario en Inteligencia Artificial, Reconocimiento de Formas e Imagen Digital-Màster Universitari en Intel·ligència Artificial, Reconeixement de Formes i Imatge Digital es_ES
dc.title Automatic speaker diarization based on deep learning and its application to audiovisual subtitling es_ES
dc.title.alternative Diferenciació automàtica de locutors amb aprenentatge profund i aplicació a la subtitulació audiovisual es_ES
dc.title.alternative Automatic speaker diarization based on deep learning and its application to audiovisual subtitling es_ES
dc.type Tesis de máster es_ES
dc.rights.accessRights Abierto es_ES
dc.contributor.affiliation Universitat Politècnica de València. Departamento de Sistemas Informáticos y Computación - Departament de Sistemes Informàtics i Computació es_ES
dc.description.bibliographicCitation Cano Caravaca, V. (2023). Automatic speaker diarization based on deep learning and its application to audiovisual subtitling. Universitat Politècnica de València. http://hdl.handle.net/10251/197788 es_ES
dc.description.accrualMethod TFGM es_ES
dc.relation.pasarela TFGM\157842 es_ES


Este ítem aparece en la(s) siguiente(s) colección(ones)

Mostrar el registro sencillo del ítem