Automatic speaker diarization based on deep learning and its application to audiovisual subtitling

Cano Caravaca, Vicent

RiuNet repositorio UPV
:
Docencia
:
Trabajos académicos
:
Servicio de alumnado - Trabajos académicos
:
Ver ítem

Identificarse

Buscar en RiuNet

Listar

Todo RiuNet
Esta colección

Mi cuenta

Acceder

Estadísticas

Ver Estadísticas de uso

Ayuda RiuNet

Admin. UPV

Compartir/Enviar a

Citas

Estadísticas

Automatic speaker diarization based on deep learning and its application to audiovisual subtitling

Mostrar el registro sencillo del ítem

Ficheros en el ítem

Nombre: Cano - Automatic ...

Tamaño: 4.312Mb

Formato: PDF

Abrir

dc.contributor.advisor	Juan Císcar, Alfonso	es_ES
dc.contributor.advisor	Silvestre Cerdà, Joan Albert	es_ES
dc.contributor.author	Cano Caravaca, Vicent	es_ES
dc.date.accessioned	2023-10-06T08:09:21Z
dc.date.available	2023-10-06T08:09:21Z
dc.date.created	2023-09-21
dc.date.issued	2023-10-06	es_ES
dc.identifier.uri	http://hdl.handle.net/10251/197788
dc.description.abstract	[ES] La diarizaci´on de locutores (SD, por su denominaci´on en ingl´es: Speaker Diarization) es una ´area de investigaci´on en constante evoluci´on. Se centra en el desarrollo de sistemas de segmentaci´on autom´atica de se˜nales ac´usticas en funci´on de los locutores que intervienen en ellas. Esta tarea se explica habitualmente, de manera simple, en ser capaz de responder a la pregunta: "¿Qui´en ha hablado en cada momento?". Durante a˜nos este campo se ha basado en la utilizaci´on de t´ecnicas cl´asicas de procesamiento de audio para las distintas subtareas que compon´ıan la diarizaci´on de locutores. Esto ha ido cambiando durante los ´ultimos a˜nos con el aumento de la popularidad de las redes neuronales y, actualmente, los sistemas de diarizaci´on de locutores se basan en t´ecnicas de aprendizaje profundo [1], como redes neuronales recurrentes. En este trabajo se propone hacer una revisi´on del estado del arte en diarizaci´on de locutores para as´ı seleccionar algunas de las mejores t´ecnicas actuales y adaptarlas a la subtitulaci´on de medios audiovisuales en valenciano y castellano. La evaluaci´on experimental se basa en tareas y datos en las cuales ha trabajado recientemente el Machine Learning and Language Processing Group (MLLP). En concreto, se hace con datos de Radio y Televisi´on Espa˜nola (RTVE) y de la Corporaci´o Valenciana de Mitjans de Comunicaci´o (CVMC).	es_ES
dc.description.abstract	[CA] La diferenciació automàtica de locutors (SD, per la seua denominació en anglés: Speaker Diarization) és una àrea de recerca en constant evolució. Es centra en el desenvolupament de sistemes de segmentació automàtica de senyals acústics en funció dels locutors que hi intervenen. Esta tasca s'explica habitualment, de manera simple, en ser capaç de respondre a la pregunta: "Qui ha parlat en cada moment?". Durant anys aquest camp s'ha basat en la utilització de tècniques clàssiques de processament d'àudio per a les diferents subtasques que componien la diferenciació automàtica de locutors. Açò ha anat canviant durant els últims anys amb l'augment de la popularitat de les xarxes neuronals i, actualment, els sistemes de diferenciació automàtica de locutors es basen en tècniques d'aprenentatge profund, com ara xarxes neuronals recurrents. En aquest treball es proposa fer una revisió de l'estat de l'art en diferenciació automàtica de locutors per tal de seleccionar algunes de les millors tècniques actuals i adaptar-les a la subtitulació de mitjans audiovisuals en valencià i castellà. L'avaluació experimental es basa en tasques i dades en les quals ha treballat recentment el Machine Learning and Language Processing Group (MLLP). En particular, es fa amb dades de Radio y Televisión Española (RTVE) i de la Corporació Valenciana de Mitjans de Comunicació (CVMC).	es_ES
dc.description.abstract	[EN] Speaker Diarization is a constantly evolving research field. It focuses on the development of automatic systems capable of segmenting acoustic signals according to the speakers who intervene in them. This task is commonly explained, in a simple way, as being able to respond to the question: "Who spoke when?". This field has been based, for many years, on the use of classical audio processing techniques to perform the subtasks which composed Speaker Diarization. This fact has been changing during these last years due to the rise in popularity experienced by neural networks and, nowadays, Speaker Diarization systems are mainly based on deep learning techniques, such as Recurrent Neural Networks. This work aims to explore the state of the art of Speaker Diarization in order to select some of the most promising techniques and adapt them to audiovisual media subtitling in Valencian and Spanish. The experimental evaluation is based on tasks and data used by the Machine Learning and Language Processing Group (MLLP) in recent projects and challenges. In particular, it is conducted with data from Radio y Televisión Española (RTVE) and Corporació Valenciana de Mitjans de Comunicació (CVMC).	es_ES
dc.format.extent	76	es_ES
dc.language	Catalán	es_ES
dc.publisher	Universitat Politècnica de València	es_ES
dc.rights	Reconocimiento - No comercial - Compartir igual (by-nc-sa)	es_ES
dc.subject	Reconocimiento automático del habla (ASR)	es_ES
dc.subject	Diferenciació automàtica de locutors	es_ES
dc.subject	Aprenentatge automàtic	es_ES
dc.subject	Aprenentatge profund.	es_ES
dc.subject	Speaker diarization	es_ES
dc.subject	Machine learning	es_ES
dc.subject	Deep learning	es_ES
dc.subject	Automatic Speech Recognition (ASR)	es_ES
dc.subject.classification	LENGUAJES Y SISTEMAS INFORMATICOS	es_ES
dc.subject.other	Máster Universitario en Inteligencia Artificial, Reconocimiento de Formas e Imagen Digital-Màster Universitari en Intel·ligència Artificial, Reconeixement de Formes i Imatge Digital	es_ES
dc.title	Automatic speaker diarization based on deep learning and its application to audiovisual subtitling	es_ES
dc.title.alternative	Diferenciació automàtica de locutors amb aprenentatge profund i aplicació a la subtitulació audiovisual	es_ES
dc.title.alternative	Automatic speaker diarization based on deep learning and its application to audiovisual subtitling	es_ES
dc.type	Tesis de máster	es_ES
dc.rights.accessRights	Abierto	es_ES
dc.contributor.affiliation	Universitat Politècnica de València. Departamento de Sistemas Informáticos y Computación - Departament de Sistemes Informàtics i Computació	es_ES
dc.description.bibliographicCitation	Cano Caravaca, V. (2023). Automatic speaker diarization based on deep learning and its application to audiovisual subtitling. Universitat Politècnica de València. http://hdl.handle.net/10251/197788	es_ES
dc.description.accrualMethod	TFGM	es_ES
dc.relation.pasarela	TFGM\157842	es_ES

Este ítem aparece en la(s) siguiente(s) colección(ones)

Servicio de alumnado - Trabajos académicos [7420]

Mostrar el registro sencillo del ítem

Automatic speaker diarization based on deep learning and its application to audiovisual subtitling

RiuNet: Repositorio Institucional de la Universidad Politécnica de Valencia

Buscar en RiuNet

Listar

Todo RiuNet

Esta colección

Mi cuenta

Estadísticas

Ayuda RiuNet

Admin. UPV

Compartir/Enviar a

Citas

Estadísticas

Automatic speaker diarization based on deep learning and its application to audiovisual subtitling

Ficheros en el ítem

Este ítem aparece en la(s) siguiente(s) colección(ones)