- -

Detección de palabras clave en señales de voz: una comparativa de modelos de deep learning

RiuNet: Repositorio Institucional de la Universidad Politécnica de Valencia

Compartir/Enviar a

Citas

Estadísticas

  • Estadisticas de Uso

Detección de palabras clave en señales de voz: una comparativa de modelos de deep learning

Mostrar el registro sencillo del ítem

Ficheros en el ítem

dc.contributor.advisor Naranjo Ornedo, Valeriana es_ES
dc.contributor.advisor Pritish, Chandna es_ES
dc.contributor.author Valls Lozano, Óscar es_ES
dc.date.accessioned 2022-10-14T18:39:09Z
dc.date.available 2022-10-14T18:39:09Z
dc.date.created 2022-07-18 es_ES
dc.date.issued 2022-10-14 es_ES
dc.identifier.uri http://hdl.handle.net/10251/187850
dc.description.abstract [ES] Los modelos de Keyword Spotting han sido ampliamente adoptados como solución para la ejecución de comandos simples de voz. Desde que se empezaron a popularizar los asistentes de voz como Siri, Alexa o Google Assistant, en los dispositivos móviles, y más recientemente en el ámbito de la domótica con dispositivos como Google Home, Apple HomePod o Amazon Echo, la detección de palabras clave se ha empleado para la activación del dispositivo mediante una palabra clave como ¿Oye Siri¿ para que el dispositivo reconozca comandos más complejos empleando modelos de lenguaje. La clave de la adopción de dichos modelos es su bajo consumo de recursos para que puedan funcionar durante largos periodos de tiempo, ejecutándose en el dispositivo y sin drenar su batería. A lo largo de su historia, se han ido proponiendo distintas arquitecturas que realizan dicha tarea. En este trabajo se propone una comparativa entre los modelos más recientes que forman parte del estado del arte para la evaluación tanto de su rendimiento como clasificadores como de su latencia y eficiencia para el posible entrenamiento, con un vocabulario específico, e implementación en tiempo real del modelo con mejores prestaciones. es_ES
dc.description.abstract [EN] Keyword Spotting (KWS) models, have been widely adopted as a solution for simple voice commands execution. Since voice assistants such as Siri, Alexa or Google Assistant started to gain popularity on mobile devices, and more recently in the home automation field with devices like Google Home, Apple HomePod or Amazon Echo¿ KWS has been used as the activation method for the device with a keyword such as ¿Hey Siri¿ to start recognising more complex commands using language models. The key to understand the adoption of these models is their low resources consumption and the possibility to make them work for long periods of time, being executed on device without draining the battery. In this paper, a comparison of the state-of-the-art models is proposed to evaluate both their performance as classificators and their latency, to possibly train the best model with a specific vocabulary and real-time implementation. en_EN
dc.format.extent 50 es_ES
dc.language Español es_ES
dc.publisher Universitat Politècnica de València es_ES
dc.rights Reserva de todos los derechos es_ES
dc.subject Voz es_ES
dc.subject Deep learning es_ES
dc.subject Voice en_EN
dc.subject.classification TEORIA DE LA SEÑAL Y COMUNICACIONES es_ES
dc.subject.other Grado en Ingeniería de Tecnologías y Servicios de Telecomunicación-Grau en Enginyeria de Tecnologies i Serveis de Telecomunicació es_ES
dc.title Detección de palabras clave en señales de voz: una comparativa de modelos de deep learning es_ES
dc.title.alternative Keyword detection in speech signals: a comparison of deep learning models es_ES
dc.title.alternative Detecció de paraules clau en senyals de veu: una comparativa de models de deep learning es_ES
dc.type Proyecto/Trabajo fin de carrera/grado es_ES
dc.rights.accessRights Abierto es_ES
dc.contributor.affiliation Universitat Politècnica de València. Departamento de Comunicaciones - Departament de Comunicacions es_ES
dc.contributor.affiliation Universitat Politècnica de València. Escuela Técnica Superior de Ingenieros de Telecomunicación - Escola Tècnica Superior d'Enginyers de Telecomunicació es_ES
dc.description.bibliographicCitation Valls Lozano, Ó. (2022). Detección de palabras clave en señales de voz: una comparativa de modelos de deep learning. Universitat Politècnica de València. http://hdl.handle.net/10251/187850 es_ES
dc.description.accrualMethod TFGM es_ES
dc.relation.pasarela TFGM\150813 es_ES


Este ítem aparece en la(s) siguiente(s) colección(ones)

Mostrar el registro sencillo del ítem