- -

Exploración de sistemas de reconocimiento de habla "end-to-end" para nuevos idiomas

RiuNet: Repositorio Institucional de la Universidad Politécnica de Valencia

Compartir/Enviar a

Citas

Estadísticas

  • Estadisticas de Uso

Exploración de sistemas de reconocimiento de habla "end-to-end" para nuevos idiomas

Mostrar el registro sencillo del ítem

Ficheros en el ítem

dc.contributor.advisor Martínez Hinarejos, Carlos David es_ES
dc.contributor.advisor Álvarez Muniain, Aitor es_ES
dc.contributor.author Bernath Valladares, Conrad es_ES
dc.date.accessioned 2018-10-17T06:41:33Z
dc.date.available 2018-10-17T06:41:33Z
dc.date.created 2018-07-24 es_ES
dc.date.issued 2018-10-17 es_ES
dc.identifier.uri http://hdl.handle.net/10251/110672
dc.description.abstract El reconocimiento del habla es un subcampo de la lingüística computacional que desarrolla metodologías y tecnologías para permitir a las máquinas el reconocimiento y la traducción del lenguaje hablado a texto. Tradicionalmente, los sistemas de reconocimiento de habla han empleado modelos ocultos de Markov (HMM, Hidden Markov Models) para capturar la variabilidad temporal en una señal de habla, y modelos de mixturas de gaussianas (GMM) para modelar las distribuciones de probabilidad en los estados de los HMM. Sin embargo, en los últimos años, los avances en algoritmos de aprendizaje automático y en las capacidades de cómputo han llevado a mejoras significativas en las tecnologías del reconocimiento del habla, principalmente a través del uso de algoritmos de aprendizaje profundo (Deep Learning). De esta manera, distintos trabajo ya han mostrado que las redes neuronales profundas (DNN, Deep Neural Networks) sobrepasan en efectividad a las GMM en modelado acústico para diversos conjuntos de datos. Además, en tiempos más recientes, los nuevos intentos se han centrado en la construcción aquitecturas de reconocimiento de habla directos (E2E, end-to-end), en particular para idiomas con altos recursos como inglés y chino, con el objetivo de sobrepasar el rendimiento de los sistemas convencionales. El objetivo de este trabajo es estudiar y explorar los sistemas de reconocimiento de habla "end-to-end", así como sus distintas aproximaciones y los paquetes de herramientas disponibles en la bibliografía. Adicionalmente, se crearán y evaluarán modelos "end-to-end" para inglés y español, y para otros lenguajes de bajos recursos como el euskera. es_ES
dc.description.abstract Speech recognition is a subfield of computational linguistics which develops methodologies and technologies to enable machines the recognition and translation of spoken language into text. Traditionally, speech recognition systems have employed Hidden Markov Models (HMMs) to capture the time variability in a speech signal and Gaussian Mixture Models (GMM) to model the HMM state probability distributions. However, over the last few years, advances in both machine learning algorithms and computational capacities have led to significant improvements in speech recognition technology, mainly through the use of Deep Learning algorithms. Thereby, different works have already shown that Deep Neural Networks (DNNs) can outperform GMMs at acoustic modeling on a variety of datasets. Besides, in more recent years, new attempts have focused on building end-to-end speech recognition architectures, especially in languages with many resources like English and Chinese, with the aim of overcoming the performance of conventional systems. The aim of this work is to study and explore end-to-end speech recognition approaches and toolkits available in the literature. In addition, end-to-end models will be built and evaluated for English and Spanish, and other less resourced languages like Basque. en_EN
dc.language Español es_ES
dc.publisher Universitat Politècnica de València es_ES
dc.rights Reserva de todos los derechos es_ES
dc.subject end-to-end es_ES
dc.subject secuencia-a-secuencia es_ES
dc.subject reconocimiento de habla es_ES
dc.subject aprendizaje profundo es_ES
dc.subject sequence-to-sequence en_EN
dc.subject speech recognition en_EN
dc.subject deep learning en_EN
dc.subject.classification LENGUAJES Y SISTEMAS INFORMATICOS es_ES
dc.subject.other Máster Universitario en Inteligencia Artificial, Reconocimiento de Formas e Imagen Digital-Màster Universitari en Intel·Ligència Artificial: Reconeixement de Formes i Imatge Digital es_ES
dc.title Exploración de sistemas de reconocimiento de habla "end-to-end" para nuevos idiomas es_ES
dc.type Tesis de máster es_ES
dc.rights.accessRights Cerrado es_ES
dc.contributor.affiliation Universitat Politècnica de València. Departamento de Sistemas Informáticos y Computación - Departament de Sistemes Informàtics i Computació es_ES
dc.description.bibliographicCitation Bernath Valladares, C. (2018). Exploración de sistemas de reconocimiento de habla "end-to-end" para nuevos idiomas. http://hdl.handle.net/10251/110672 es_ES
dc.description.accrualMethod TFGM es_ES
dc.relation.pasarela TFGM\84504 es_ES


Este ítem aparece en la(s) siguiente(s) colección(ones)

Mostrar el registro sencillo del ítem