Resumen:
|
El reconocimiento del habla es un subcampo de la lingüística computacional que desarrolla metodologías y tecnologías para permitir a las máquinas el reconocimiento y la traducción del lenguaje hablado a texto.
Tradicionalmente, ...[+]
El reconocimiento del habla es un subcampo de la lingüística computacional que desarrolla metodologías y tecnologías para permitir a las máquinas el reconocimiento y la traducción del lenguaje hablado a texto.
Tradicionalmente, los sistemas de reconocimiento de habla han empleado modelos ocultos de Markov (HMM, Hidden Markov Models) para capturar la variabilidad temporal en una señal de habla, y modelos de mixturas de gaussianas (GMM) para modelar las distribuciones de probabilidad en los estados de los HMM.
Sin embargo, en los últimos años, los avances en algoritmos de aprendizaje automático y en las capacidades de cómputo han llevado a mejoras significativas en las tecnologías del reconocimiento del habla, principalmente a través del uso de algoritmos de aprendizaje profundo (Deep Learning). De esta manera, distintos trabajo ya han mostrado que las redes neuronales profundas (DNN, Deep Neural Networks) sobrepasan en efectividad a las GMM en modelado acústico para diversos conjuntos de datos. Además, en tiempos más recientes, los nuevos intentos se han centrado en la construcción aquitecturas de reconocimiento de habla directos (E2E, end-to-end), en particular para idiomas con altos recursos como inglés y chino, con el objetivo de sobrepasar el rendimiento de los sistemas convencionales.
El objetivo de este trabajo es estudiar y explorar los sistemas de reconocimiento de habla "end-to-end", así como sus distintas aproximaciones y los paquetes de herramientas disponibles en la bibliografía. Adicionalmente, se crearán y evaluarán modelos "end-to-end" para inglés y español, y para otros lenguajes de bajos recursos como el euskera.
[-]
Speech recognition is a subfield of computational linguistics which develops methodologies and technologies to enable machines the recognition and translation
of spoken language into text.
Traditionally, speech recognition ...[+]
Speech recognition is a subfield of computational linguistics which develops methodologies and technologies to enable machines the recognition and translation
of spoken language into text.
Traditionally, speech recognition systems have employed Hidden Markov Models (HMMs) to capture the time variability in a speech signal and Gaussian Mixture
Models (GMM) to model the HMM state probability distributions.
However, over the last few years, advances in both machine learning algorithms and computational capacities have led to significant improvements in speech recognition
technology, mainly through the use of Deep Learning algorithms. Thereby, different works have already shown that Deep Neural Networks (DNNs) can outperform
GMMs at acoustic modeling on a variety of datasets. Besides, in more recent years, new attempts have focused on building end-to-end speech recognition architectures,
especially in languages with many resources like English and Chinese, with the aim of overcoming the performance of conventional systems.
The aim of this work is to study and explore end-to-end speech recognition approaches and toolkits available in the literature. In addition, end-to-end models will
be built and evaluated for English and Spanish, and other less resourced languages like Basque.
[-]
|