Deep Neural Networks for Automatic Speech-To-Speech Translation of Open Educational Resources

Pérez González de Martos, Alejandro Manuel

doi:10.4995/Thesis/10251/184019

Identificarse

Buscar en RiuNet

Listar

Todo RiuNet
Esta colección

Mi cuenta

Acceder

Estadísticas

Ver Estadísticas de uso

Ayuda RiuNet

Admin. UPV

Compartir/Enviar a

Citas

Estadísticas

Deep Neural Networks for Automatic Speech-To-Speech Translation of Open Educational Resources

Mostrar el registro completo del ítem

Pérez González De Martos, AM. (2022). Deep Neural Networks for Automatic Speech-To-Speech Translation of Open Educational Resources [Tesis doctoral]. Universitat Politècnica de València. https://doi.org/10.4995/Thesis/10251/184019

Premios Extraordinarios de tesis doctorales

Por favor, use este identificador para citar o enlazar este ítem: http://hdl.handle.net/10251/184019

Ficheros en el ítem

Nombre: Perez - Deep Neural ...

Tamaño: 4.615Mb

Formato: PDF

Abrir/Preview

Nombre: index.pdf

Tamaño: 170.9Kb

Formato: PDF

Abrir/Preview

Nombre: resumen.pdf

Tamaño: 37.97Kb

Formato: PDF

Abrir/Preview

Metadatos del ítem

Título:

Deep Neural Networks for Automatic Speech-To-Speech Translation of Open Educational Resources

Autor:

Pérez González de Martos, Alejandro Manuel

Director(es):

Juan Císcar, Alfonso

Sanchis Navarro, José Alberto

Entidad UPV:

Universitat Politècnica de València. Departamento de Sistemas Informáticos y Computación - Departament de Sistemes Informàtics i Computació

Fecha acto/lectura:

2022-06-15

Fecha difusión:

2022-07-12

Resumen:

[ES] En los últimos años, el aprendizaje profundo ha cambiado significativamente el panorama en diversas áreas del campo de la inteligencia artificial, entre las que se incluyen la visión por computador, el procesamiento del lenguaje natural, robótica o teoría de juegos. En particular, el sorprendente éxito del aprendizaje profundo en múltiples aplicaciones del campo del procesamiento del lenguaje natural tales como el reconocimiento automático del habla (ASR), la traducción automática (MT) o la síntesis de voz (TTS), ha supuesto una mejora drástica en la precisión de estos sistemas, extendiendo así su implantación a un mayor rango de aplicaciones en la vida real. En este momento, es evidente que las tecnologías de reconocimiento automático del habla y traducción automática pueden ser empleadas para producir, de forma efectiva, subtítulos multilingües de alta calidad de contenidos audiovisuales. Esto es particularmente cierto en el contexto de los vídeos educativos, donde las condiciones acústicas son normalmente favorables para los sistemas de ASR y el discurso está gramaticalmente bien formado. Sin embargo, en el caso de TTS, aunque los sistemas basados en redes neuronales han demostrado ser capaces de sintetizar voz de un realismo y calidad sin precedentes, todavía debe comprobarse si esta tecnología está lo suficientemente madura como para mejorar la accesibilidad y la participación en el aprendizaje en línea. Además, existen diversas tareas en el campo de la síntesis de voz que todavía suponen un reto, como la clonación de voz inter-lingüe, la síntesis incremental o la adaptación zero-shot a nuevos locutores. Esta tesis aborda la mejora de las prestaciones de los sistemas actuales de síntesis de voz basados en redes neuronales, así como la extensión de su aplicación en diversos escenarios, en el contexto de mejorar la accesibilidad en el aprendizaje en línea. En este sentido, este trabajo presta especial atención a la adaptación a nuevos locutores y a la clonación de voz inter-lingüe, ya que los textos a sintetizar se corresponden, en este caso, a traducciones de intervenciones originalmente en otro idioma. [-]

[CA] Durant aquests darrers anys, l'aprenentatge profund ha canviat significativament el panorama en diverses àrees del camp de la intel·ligència artificial, entre les quals s'inclouen la visió per computador, el processament del llenguatge natural, robòtica o la teoria de jocs. En particular, el sorprenent èxit de l'aprenentatge profund en múltiples aplicacions del camp del processament del llenguatge natural, com ara el reconeixement automàtic de la parla (ASR), la traducció automàtica (MT) o la síntesi de veu (TTS), ha suposat una millora dràstica en la precisió i qualitat d'aquests sistemes, estenent així la seva implantació a un ventall més ampli a la vida real. En aquest moment, és evident que les tecnologies de reconeixement automàtic de la parla i traducció automàtica poden ser emprades per a produir, de forma efectiva, subtítols multilingües d'alta qualitat de continguts audiovisuals. Això és particularment cert en el context dels vídeos educatius, on les condicions acústiques són normalment favorables per als sistemes d'ASR i el discurs està gramaticalment ben format. No obstant això, al cas de TTS, encara que els sistemes basats en xarxes neuronals han demostrat ser capaços de sintetitzar veu d'un realisme i qualitat sense precedents, encara s'ha de comprovar si aquesta tecnologia és ja prou madura com per millorar l'accessibilitat i la participació en l'aprenentatge en línia. A més, hi ha diverses tasques al camp de la síntesi de veu que encara suposen un repte, com ara la clonació de veu inter-lingüe, la síntesi incremental o l'adaptació zero-shot a nous locutors. Aquesta tesi aborda la millora de les prestacions dels sistemes actuals de síntesi de veu basats en xarxes neuronals, així com l'extensió de la seva aplicació en diversos escenaris, en el context de millorar l'accessibilitat en l'aprenentatge en línia. En aquest sentit, aquest treball presta especial atenció a l'adaptació a nous locutors i a la clonació de veu interlingüe, ja que els textos a sintetitzar es corresponen, en aquest cas, a traduccions d'intervencions originalment en un altre idioma. [-]

[EN] In recent years, deep learning has fundamentally changed the landscapes of a number of areas in artificial intelligence, including computer vision, natural language processing, robotics, and game theory. In particular, ...[+]

Palabras clave:

Traducción automática (MT) , Síntesis de voz (TTS) , Reconocimiento automático del habla (ASR) , Texto a voz , Traducción de voz a voz , Aprendizaje profundo , Aprendizaje automático , Inteligencia artificial , Procesamiento del lenguaje natural , Aprendizaje potenciado por la tecnología , Videoconferencias , Accesibilidad , Speech synthesis , Text-to-speech , Speech-to-speech translation , Deep learning , Machine learning , Artificial intelligence , Natural language processing , Technology enhanced learning , Video lectures , Accessibility

Derechos de uso:

Reserva de todos los derechos

DOI:

10.4995/Thesis/10251/184019

Editorial:

Universitat Politècnica de València

Tipo:

Tesis doctoral

recommendations

Este ítem aparece en la(s) siguiente(s) colección(ones)

Tesis doctorales [5399]

Mostrar el registro completo del ítem

Deep Neural Networks for Automatic Speech-To-Speech Translation of Open Educational Resources

RiuNet: Repositorio Institucional de la Universidad Politécnica de Valencia

Buscar en RiuNet

Listar

Todo RiuNet

Esta colección

Mi cuenta

Estadísticas

Ayuda RiuNet

Admin. UPV

Compartir/Enviar a

Citas

Estadísticas

Deep Neural Networks for Automatic Speech-To-Speech Translation of Open Educational Resources

Ficheros en el ítem

Metadatos del ítem

recommendations

Este ítem aparece en la(s) siguiente(s) colección(ones)

Ítems relacionados