Resumen:
|
[ES] Los modelos de Keyword Spotting han sido ampliamente adoptados como solución para la ejecución de comandos simples de voz. Desde que se empezaron a popularizar los asistentes de voz como Siri, Alexa o Google Assistant, ...[+]
[ES] Los modelos de Keyword Spotting han sido ampliamente adoptados como solución para la ejecución de comandos simples de voz. Desde que se empezaron a popularizar los asistentes de voz como Siri, Alexa o Google Assistant, en los dispositivos móviles, y más recientemente en el ámbito de la domótica con dispositivos como Google Home, Apple HomePod o Amazon Echo, la detección de palabras clave se ha empleado para la activación del dispositivo mediante una palabra clave como ¿Oye Siri¿ para que el dispositivo reconozca comandos más complejos empleando modelos de lenguaje. La clave de la adopción de dichos modelos es su bajo consumo de recursos para que puedan funcionar durante largos periodos de tiempo, ejecutándose en el dispositivo y sin drenar su batería. A lo largo de su historia, se han ido proponiendo distintas arquitecturas que realizan dicha tarea. En este trabajo se propone una comparativa entre los modelos más recientes que forman parte del estado del arte para la evaluación tanto de su rendimiento como clasificadores como de su latencia y eficiencia para el posible entrenamiento, con un vocabulario específico, e implementación en tiempo real del modelo con mejores prestaciones.
[-]
[EN] Keyword Spotting (KWS) models, have been widely adopted as a solution for simple voice commands execution. Since voice assistants such as Siri, Alexa or Google Assistant started to gain popularity on mobile devices, ...[+]
[EN] Keyword Spotting (KWS) models, have been widely adopted as a solution for simple voice commands execution. Since voice assistants such as Siri, Alexa or Google Assistant started to gain popularity on mobile devices, and more recently in the home automation field with devices like Google Home, Apple HomePod or Amazon Echo¿ KWS has been used as the activation method for the device with a keyword such as ¿Hey Siri¿ to start recognising more complex commands using language models. The key to understand the adoption of these models is their low resources consumption and the possibility to make them work for long periods of time, being executed on device without draining the battery. In this paper, a comparison of the state-of-the-art models is proposed to evaluate both their performance as classificators and their latency, to possibly train the best model with a specific vocabulary and real-time implementation.
[-]
|