Exploring multimodal foundation models to improve interaction for people with speech impairments

Ferri Mollá, Isabel

RiuNet repositorio UPV
:
Docencia
:
Trabajos académicos
:
Servicio de alumnado - Trabajos académicos
:
Ver ítem

Identificarse

Buscar en RiuNet

Listar

Todo RiuNet
Esta colección

Mi cuenta

Acceder

Estadísticas

Ver Estadísticas de uso

Ayuda RiuNet

Admin. UPV

Compartir/Enviar a

Citas

Estadísticas

Exploring multimodal foundation models to improve interaction for people with speech impairments

Mostrar el registro sencillo del ítem

Ficheros en el ítem

Nombre: Ferri - Exploring ...

Tamaño: 1.500Mb

Formato: PDF

Abrir

dc.contributor.advisor	Linares Pellicer, Jordi Joan	es_ES
dc.contributor.author	Ferri Mollá, Isabel	es_ES
dc.date.accessioned	2023-10-04T10:57:06Z
dc.date.available	2023-10-04T10:57:06Z
dc.date.created	2023-09-19
dc.date.issued	2023-10-04	es_ES
dc.identifier.uri	http://hdl.handle.net/10251/197532
dc.description.abstract	[ES] Las personas con dificultades en la pronunciación, a menudo derivadas de patologías fisiológicas o cognitivas, enfrentan desafíos significativos al utilizar tecnologías de interacción por voz. Las tecnologías de asistencia actuales no abordan adecuadamente las complejidades únicas de estos desafíos, lo que destaca la necesidad de soluciones adaptables para mejorar las capacidades de comunicación y la calidad de vida. Este proyecto tiene como objetivo adaptar varios sistemas de reconocimiento automático del habla a un grupo demográfico específico, en particular, a individuos con problemas de pronunciación, especialmente aquellos con afasia. Para lograrlo, se realizará un proceso de fine-tuning a diferentes sistemas de reconocimiento del habla preentrenados, con énfasis en la identificación de hiperparámetros óptimos para el entrenamiento y en la comparación de resultados utilizando la métrica del Word Error Rate (WER). Además, el proyecto integrará modelos de reconocimiento del habla con modelos de descripción de imágenes para explorar en qué medida el contexto visual mejora la interpretación y comprensión del sistema sobre lo que los individuos con afasia están tratando de comunicar. La evaluación de estos sistemas incluirá valoraciones humanas. Así, este proyecto busca crear una solución integral para ayudar a las personas con afasia y mejorar la experiencia de Interacción Persona-Ordenador (HCI) para este grupo demográfico.	es_ES
dc.description.abstract	[EN] People with pronunciation difficulties, often stemming from physiological or cognitive pathologies, face significant challenges when using voice interaction technologies. Current assistive technologies do not adequately address the unique complexities of these challenges, highlighting the need for adaptable solutions to enhance communication abilities and quality of life. This project aims to adapt various automatic speech recognition systems to a specific demographic group, particularly individuals with pronunciation problems, especially those with aphasia. To achieve this, fine-tuning will be applied to different pre-trained speech recognition systems, with a focus on identifying optimal hyperparameters for training and comparing results using the Word Error Rate (WER) metric. Furthermore, the project will integrate speech recognition models with image description models to explore to what extent visual context enhances the system's interpretation and understanding of what individuals with aphasia are trying to communicate. Evaluation of these systems will include human assessments. Thus, this project seeks to create a comprehensive solution to assist people with aphasia and enhance the Human-Computer Interaction (HCI) experience for this demographic group.	es_ES
dc.format.extent	57	es_ES
dc.language	Inglés	es_ES
dc.publisher	Universitat Politècnica de València	es_ES
dc.rights	Reserva de todos los derechos	es_ES
dc.subject	Interacción Persona-Ordenador (HCI)	es_ES
dc.subject	Modelo de lenguaje	es_ES
dc.subject	Problemas de dicción	es_ES
dc.subject	Descripción de imágenes	es_ES
dc.subject	Foundation models	es_ES
dc.subject	Pronunciation problems	es_ES
dc.subject	Image captioning	es_ES
dc.subject	Automatic Speech Recognition (ASR)	es_ES
dc.subject	Language models	es_ES
dc.subject.classification	LENGUAJES Y SISTEMAS INFORMATICOS	es_ES
dc.subject.other	Máster Universitario en Inteligencia Artificial, Reconocimiento de Formas e Imagen Digital-Màster Universitari en Intel·ligència Artificial, Reconeixement de Formes i Imatge Digital	es_ES
dc.title	Exploring multimodal foundation models to improve interaction for people with speech impairments	es_ES
dc.title.alternative	Explorando modelos fundamentales multimodales para mejorar la interacción para personas con trastornos del habla	es_ES
dc.title.alternative	Explorant models fonamentals multimodals per millorar la interacció per a persones amb trastorns de la parla	es_ES
dc.type	Tesis de máster	es_ES
dc.rights.accessRights	Abierto	es_ES
dc.contributor.affiliation	Universitat Politècnica de València. Departamento de Sistemas Informáticos y Computación - Departament de Sistemes Informàtics i Computació	es_ES
dc.description.bibliographicCitation	Ferri Mollá, I. (2023). Exploring multimodal foundation models to improve interaction for people with speech impairments. Universitat Politècnica de València. http://hdl.handle.net/10251/197532	es_ES
dc.description.accrualMethod	TFGM	es_ES
dc.relation.pasarela	TFGM\158231	es_ES

Este ítem aparece en la(s) siguiente(s) colección(ones)

Servicio de alumnado - Trabajos académicos [7051]

Mostrar el registro sencillo del ítem

Exploring multimodal foundation models to improve interaction for people with speech impairments

RiuNet: Repositorio Institucional de la Universidad Politécnica de Valencia

Buscar en RiuNet

Listar

Todo RiuNet

Esta colección

Mi cuenta

Estadísticas

Ayuda RiuNet

Admin. UPV

Compartir/Enviar a

Citas

Estadísticas

Exploring multimodal foundation models to improve interaction for people with speech impairments

Ficheros en el ítem

Este ítem aparece en la(s) siguiente(s) colección(ones)