Mostrar el registro sencillo del ítem
dc.contributor.advisor | Juan Císcar, Alfonso![]() |
es_ES |
dc.contributor.advisor | Silvestre Cerdà, Joan Albert![]() |
es_ES |
dc.contributor.author | Cano Caravaca, Vicent![]() |
es_ES |
dc.date.accessioned | 2023-10-06T08:09:21Z | |
dc.date.available | 2023-10-06T08:09:21Z | |
dc.date.created | 2023-09-21 | |
dc.date.issued | 2023-10-06 | es_ES |
dc.identifier.uri | http://hdl.handle.net/10251/197788 | |
dc.description.abstract | [ES] La diarizaci´on de locutores (SD, por su denominaci´on en ingl´es: Speaker Diarization) es una ´area de investigaci´on en constante evoluci´on. Se centra en el desarrollo de sistemas de segmentaci´on autom´atica de se˜nales ac´usticas en funci´on de los locutores que intervienen en ellas. Esta tarea se explica habitualmente, de manera simple, en ser capaz de responder a la pregunta: "¿Qui´en ha hablado en cada momento?". Durante a˜nos este campo se ha basado en la utilizaci´on de t´ecnicas cl´asicas de procesamiento de audio para las distintas subtareas que compon´ıan la diarizaci´on de locutores. Esto ha ido cambiando durante los ´ultimos a˜nos con el aumento de la popularidad de las redes neuronales y, actualmente, los sistemas de diarizaci´on de locutores se basan en t´ecnicas de aprendizaje profundo [1], como redes neuronales recurrentes. En este trabajo se propone hacer una revisi´on del estado del arte en diarizaci´on de locutores para as´ı seleccionar algunas de las mejores t´ecnicas actuales y adaptarlas a la subtitulaci´on de medios audiovisuales en valenciano y castellano. La evaluaci´on experimental se basa en tareas y datos en las cuales ha trabajado recientemente el Machine Learning and Language Processing Group (MLLP). En concreto, se hace con datos de Radio y Televisi´on Espa˜nola (RTVE) y de la Corporaci´o Valenciana de Mitjans de Comunicaci´o (CVMC). | es_ES |
dc.description.abstract | [CA] La diferenciació automàtica de locutors (SD, per la seua denominació en anglés: Speaker Diarization) és una àrea de recerca en constant evolució. Es centra en el desenvolupament de sistemes de segmentació automàtica de senyals acústics en funció dels locutors que hi intervenen. Esta tasca s'explica habitualment, de manera simple, en ser capaç de respondre a la pregunta: "Qui ha parlat en cada moment?". Durant anys aquest camp s'ha basat en la utilització de tècniques clàssiques de processament d'àudio per a les diferents subtasques que componien la diferenciació automàtica de locutors. Açò ha anat canviant durant els últims anys amb l'augment de la popularitat de les xarxes neuronals i, actualment, els sistemes de diferenciació automàtica de locutors es basen en tècniques d'aprenentatge profund, com ara xarxes neuronals recurrents. En aquest treball es proposa fer una revisió de l'estat de l'art en diferenciació automàtica de locutors per tal de seleccionar algunes de les millors tècniques actuals i adaptar-les a la subtitulació de mitjans audiovisuals en valencià i castellà. L'avaluació experimental es basa en tasques i dades en les quals ha treballat recentment el Machine Learning and Language Processing Group (MLLP). En particular, es fa amb dades de Radio y Televisión Española (RTVE) i de la Corporació Valenciana de Mitjans de Comunicació (CVMC). | es_ES |
dc.description.abstract | [EN] Speaker Diarization is a constantly evolving research field. It focuses on the development of automatic systems capable of segmenting acoustic signals according to the speakers who intervene in them. This task is commonly explained, in a simple way, as being able to respond to the question: "Who spoke when?". This field has been based, for many years, on the use of classical audio processing techniques to perform the subtasks which composed Speaker Diarization. This fact has been changing during these last years due to the rise in popularity experienced by neural networks and, nowadays, Speaker Diarization systems are mainly based on deep learning techniques, such as Recurrent Neural Networks. This work aims to explore the state of the art of Speaker Diarization in order to select some of the most promising techniques and adapt them to audiovisual media subtitling in Valencian and Spanish. The experimental evaluation is based on tasks and data used by the Machine Learning and Language Processing Group (MLLP) in recent projects and challenges. In particular, it is conducted with data from Radio y Televisión Española (RTVE) and Corporació Valenciana de Mitjans de Comunicació (CVMC). | es_ES |
dc.format.extent | 76 | es_ES |
dc.language | Catalán | es_ES |
dc.publisher | Universitat Politècnica de València | es_ES |
dc.rights | Reconocimiento - No comercial - Compartir igual (by-nc-sa) | es_ES |
dc.subject | Reconocimiento automático del habla (ASR) | es_ES |
dc.subject | Diferenciació automàtica de locutors | es_ES |
dc.subject | Aprenentatge automàtic | es_ES |
dc.subject | Aprenentatge profund. | es_ES |
dc.subject | Speaker diarization | es_ES |
dc.subject | Machine learning | es_ES |
dc.subject | Deep learning | es_ES |
dc.subject | Automatic Speech Recognition (ASR) | es_ES |
dc.subject.classification | LENGUAJES Y SISTEMAS INFORMATICOS | es_ES |
dc.subject.other | Máster Universitario en Inteligencia Artificial, Reconocimiento de Formas e Imagen Digital-Màster Universitari en Intel·ligència Artificial, Reconeixement de Formes i Imatge Digital | es_ES |
dc.title | Automatic speaker diarization based on deep learning and its application to audiovisual subtitling | es_ES |
dc.title.alternative | Diferenciació automàtica de locutors amb aprenentatge profund i aplicació a la subtitulació audiovisual | es_ES |
dc.title.alternative | Automatic speaker diarization based on deep learning and its application to audiovisual subtitling | es_ES |
dc.type | Tesis de máster | es_ES |
dc.rights.accessRights | Abierto | es_ES |
dc.contributor.affiliation | Universitat Politècnica de València. Departamento de Sistemas Informáticos y Computación - Departament de Sistemes Informàtics i Computació | es_ES |
dc.description.bibliographicCitation | Cano Caravaca, V. (2023). Automatic speaker diarization based on deep learning and its application to audiovisual subtitling. Universitat Politècnica de València. http://hdl.handle.net/10251/197788 | es_ES |
dc.description.accrualMethod | TFGM | es_ES |
dc.relation.pasarela | TFGM\157842 | es_ES |