Detección de palabras clave en señales de voz: una comparativa de modelos de deep learning

Valls Lozano, Óscar

Identificarse

Buscar en RiuNet

Listar

Todo RiuNet
Esta colección

Mi cuenta

Acceder

Estadísticas

Ver Estadísticas de uso

Ayuda RiuNet

Admin. UPV

Compartir/Enviar a

Citas

Estadísticas

Detección de palabras clave en señales de voz: una comparativa de modelos de deep learning

Mostrar el registro sencillo del ítem

Ficheros en el ítem

Nombre: Valls - Deteccion ...

Tamaño: 2.333Mb

Formato: PDF

Abrir

dc.contributor.advisor	Naranjo Ornedo, Valeriana	es_ES
dc.contributor.advisor	Pritish, Chandna	es_ES
dc.contributor.author	Valls Lozano, Óscar	es_ES
dc.date.accessioned	2022-10-14T18:39:09Z
dc.date.available	2022-10-14T18:39:09Z
dc.date.created	2022-07-18	es_ES
dc.date.issued	2022-10-14	es_ES
dc.identifier.uri	http://hdl.handle.net/10251/187850
dc.description.abstract	[ES] Los modelos de Keyword Spotting han sido ampliamente adoptados como solución para la ejecución de comandos simples de voz. Desde que se empezaron a popularizar los asistentes de voz como Siri, Alexa o Google Assistant, en los dispositivos móviles, y más recientemente en el ámbito de la domótica con dispositivos como Google Home, Apple HomePod o Amazon Echo, la detección de palabras clave se ha empleado para la activación del dispositivo mediante una palabra clave como ¿Oye Siri¿ para que el dispositivo reconozca comandos más complejos empleando modelos de lenguaje. La clave de la adopción de dichos modelos es su bajo consumo de recursos para que puedan funcionar durante largos periodos de tiempo, ejecutándose en el dispositivo y sin drenar su batería. A lo largo de su historia, se han ido proponiendo distintas arquitecturas que realizan dicha tarea. En este trabajo se propone una comparativa entre los modelos más recientes que forman parte del estado del arte para la evaluación tanto de su rendimiento como clasificadores como de su latencia y eficiencia para el posible entrenamiento, con un vocabulario específico, e implementación en tiempo real del modelo con mejores prestaciones.	es_ES
dc.description.abstract	[EN] Keyword Spotting (KWS) models, have been widely adopted as a solution for simple voice commands execution. Since voice assistants such as Siri, Alexa or Google Assistant started to gain popularity on mobile devices, and more recently in the home automation field with devices like Google Home, Apple HomePod or Amazon Echo¿ KWS has been used as the activation method for the device with a keyword such as ¿Hey Siri¿ to start recognising more complex commands using language models. The key to understand the adoption of these models is their low resources consumption and the possibility to make them work for long periods of time, being executed on device without draining the battery. In this paper, a comparison of the state-of-the-art models is proposed to evaluate both their performance as classificators and their latency, to possibly train the best model with a specific vocabulary and real-time implementation.	en_EN
dc.format.extent	50	es_ES
dc.language	Español	es_ES
dc.publisher	Universitat Politècnica de València	es_ES
dc.rights	Reserva de todos los derechos	es_ES
dc.subject	Voz	es_ES
dc.subject	Deep learning	es_ES
dc.subject	Voice	en_EN
dc.subject.classification	TEORIA DE LA SEÑAL Y COMUNICACIONES	es_ES
dc.subject.other	Grado en Ingeniería de Tecnologías y Servicios de Telecomunicación-Grau en Enginyeria de Tecnologies i Serveis de Telecomunicació	es_ES
dc.title	Detección de palabras clave en señales de voz: una comparativa de modelos de deep learning	es_ES
dc.title.alternative	Keyword detection in speech signals: a comparison of deep learning models	es_ES
dc.title.alternative	Detecció de paraules clau en senyals de veu: una comparativa de models de deep learning	es_ES
dc.type	Proyecto/Trabajo fin de carrera/grado	es_ES
dc.rights.accessRights	Abierto	es_ES
dc.contributor.affiliation	Universitat Politècnica de València. Departamento de Comunicaciones - Departament de Comunicacions	es_ES
dc.contributor.affiliation	Universitat Politècnica de València. Escuela Técnica Superior de Ingenieros de Telecomunicación - Escola Tècnica Superior d'Enginyers de Telecomunicació	es_ES
dc.description.bibliographicCitation	Valls Lozano, Ó. (2022). Detección de palabras clave en señales de voz: una comparativa de modelos de deep learning. Universitat Politècnica de València. http://hdl.handle.net/10251/187850	es_ES
dc.description.accrualMethod	TFGM	es_ES
dc.relation.pasarela	TFGM\150813	es_ES

Este ítem aparece en la(s) siguiente(s) colección(ones)

ETSIT - Trabajos académicos [2148]
Escuela Técnica Superior de Ingenieros de Telecomunicación

Mostrar el registro sencillo del ítem

Detección de palabras clave en señales de voz: una comparativa de modelos de deep learning

RiuNet: Repositorio Institucional de la Universidad Politécnica de Valencia

Buscar en RiuNet

Listar

Todo RiuNet

Esta colección

Mi cuenta

Estadísticas

Ayuda RiuNet

Admin. UPV

Compartir/Enviar a

Citas

Estadísticas

Detección de palabras clave en señales de voz: una comparativa de modelos de deep learning

Ficheros en el ítem

Este ítem aparece en la(s) siguiente(s) colección(ones)