Resumen:
|
[ES] La síntesis de voz (TTS, del inglés Text-To-Speech) es una de las áreas más activas dentro de la inteligencia artificial, particularmente en el campo del aprendizaje automático. Recientemente, esta área ha sido el ...[+]
[ES] La síntesis de voz (TTS, del inglés Text-To-Speech) es una de las áreas más activas dentro de la inteligencia artificial, particularmente en el campo del aprendizaje automático. Recientemente, esta área ha sido el foco de atención por parte de importantes figuras tecnológicas como Google, Facebook, Microsoft, etc. debido a las mejoras de rendimiento obtenidas por esta tecnología gracias a la incorporación de redes neuronales artificiales. En este sentido, la nueva era de sistemas TTS basados en redes neuronales ha traído consigo sistemas de síntesis de voz de gran naturalidad que, en contraste con los sistemas tradicionales, no requieren de gran conocimiento experto en procesado de la señal y aspectos lingüísticos. En este trabajo se propone estudiar e implementar modelos avanzados de TTS en lenguas europeas y, en particular, en castellano y alemán. Para ello, se hará uso de datos, tecnología y experiencia del grupo MLLP del VRAIN, adquiridos en el marco de proyectos de investigación y transferencia tecnológica desarrollados en los últimos cinco años.
[-]
[EN] Text-To-Speech (TTS) is one of the most active areas within artificial intelligence, particularly in the field
of machine learning. Recently, this area has been the focus of attention of important technological ...[+]
[EN] Text-To-Speech (TTS) is one of the most active areas within artificial intelligence, particularly in the field
of machine learning. Recently, this area has been the focus of attention of important technological figures such
as Google, Facebook, Microsoft, etc. due to the performance improvements obtained by this technology thanks to
the incorporation of artificial neural networks. In this sense, the new era of TTS systems based on neural networks
has brought with it highly natural speech synthesis systems that, in contrast to traditional systems, do not require
great expertise in signal processing and linguistic aspects. In this work we propose to study and implement advanced
TTS models in European languages and, in particular, in Spanish and German. For this purpose, we will make use of data,
technology and experience of the MLLP group of the VRAIN, acquired in the framework of research and technology transfer
projects developed in the last five years.
[-]
[CA] La síntesi de veu (TTS, de l’angles Text-To-Speech) és una dels àrees més actives dins
de la intel·ligència artificial, particularment en el camp de l’aprenentatge automàtic. Recentment, aquesta àrea ha sigut el focus ...[+]
[CA] La síntesi de veu (TTS, de l’angles Text-To-Speech) és una dels àrees més actives dins
de la intel·ligència artificial, particularment en el camp de l’aprenentatge automàtic. Recentment, aquesta àrea ha sigut el focus d’atenció per part d’importants figures tecnològiques com Google, Facebook, Microsoft, etc. a causa de les millores de rendiment
obtingudes per aquesta tecnologia gràcies a la incorporació de xarxes neuronals artificials. En aquest sentit, la nova era de sistemes TTS basats en xarxes neuronals ha portat
amb si sistemes de síntesis de veu de gran naturalitat que, en contrast amb els sistemes
tradicionals, no requereixen de gran coneixement expert en processament del senyal i aspectes lingüístics. En aquest treball es proposa estudiar i implementar models avançats
de TTS en llengües europees i, en particular, en castellà i alemany. Per a això, es farà ús
de dades, tecnologia i experiència del grup MLLP del VRAIN, adquirits en el marc de
projectes d’investigació i transferència tecnològica desenvolupats en els últims cinc anys.
[-]
|