- -

Exploring multimodal foundation models to improve interaction for people with speech impairments

RiuNet: Repositorio Institucional de la Universidad Politécnica de Valencia

Compartir/Enviar a

Citas

Estadísticas

  • Estadisticas de Uso

Exploring multimodal foundation models to improve interaction for people with speech impairments

Mostrar el registro sencillo del ítem

Ficheros en el ítem

dc.contributor.advisor Linares Pellicer, Jordi Joan es_ES
dc.contributor.author Ferri Mollá, Isabel es_ES
dc.date.accessioned 2023-10-04T10:57:06Z
dc.date.available 2023-10-04T10:57:06Z
dc.date.created 2023-09-19
dc.date.issued 2023-10-04 es_ES
dc.identifier.uri http://hdl.handle.net/10251/197532
dc.description.abstract [ES] Las personas con dificultades en la pronunciación, a menudo derivadas de patologías fisiológicas o cognitivas, enfrentan desafíos significativos al utilizar tecnologías de interacción por voz. Las tecnologías de asistencia actuales no abordan adecuadamente las complejidades únicas de estos desafíos, lo que destaca la necesidad de soluciones adaptables para mejorar las capacidades de comunicación y la calidad de vida. Este proyecto tiene como objetivo adaptar varios sistemas de reconocimiento automático del habla a un grupo demográfico específico, en particular, a individuos con problemas de pronunciación, especialmente aquellos con afasia. Para lograrlo, se realizará un proceso de fine-tuning a diferentes sistemas de reconocimiento del habla preentrenados, con énfasis en la identificación de hiperparámetros óptimos para el entrenamiento y en la comparación de resultados utilizando la métrica del Word Error Rate (WER). Además, el proyecto integrará modelos de reconocimiento del habla con modelos de descripción de imágenes para explorar en qué medida el contexto visual mejora la interpretación y comprensión del sistema sobre lo que los individuos con afasia están tratando de comunicar. La evaluación de estos sistemas incluirá valoraciones humanas. Así, este proyecto busca crear una solución integral para ayudar a las personas con afasia y mejorar la experiencia de Interacción Persona-Ordenador (HCI) para este grupo demográfico. es_ES
dc.description.abstract [EN] People with pronunciation difficulties, often stemming from physiological or cognitive pathologies, face significant challenges when using voice interaction technologies. Current assistive technologies do not adequately address the unique complexities of these challenges, highlighting the need for adaptable solutions to enhance communication abilities and quality of life. This project aims to adapt various automatic speech recognition systems to a specific demographic group, particularly individuals with pronunciation problems, especially those with aphasia. To achieve this, fine-tuning will be applied to different pre-trained speech recognition systems, with a focus on identifying optimal hyperparameters for training and comparing results using the Word Error Rate (WER) metric. Furthermore, the project will integrate speech recognition models with image description models to explore to what extent visual context enhances the system's interpretation and understanding of what individuals with aphasia are trying to communicate. Evaluation of these systems will include human assessments. Thus, this project seeks to create a comprehensive solution to assist people with aphasia and enhance the Human-Computer Interaction (HCI) experience for this demographic group. es_ES
dc.format.extent 57 es_ES
dc.language Inglés es_ES
dc.publisher Universitat Politècnica de València es_ES
dc.rights Reserva de todos los derechos es_ES
dc.subject Interacción Persona-Ordenador (HCI) es_ES
dc.subject Modelo de lenguaje es_ES
dc.subject Problemas de dicción es_ES
dc.subject Descripción de imágenes es_ES
dc.subject Foundation models es_ES
dc.subject Pronunciation problems es_ES
dc.subject Image captioning es_ES
dc.subject Automatic Speech Recognition (ASR) es_ES
dc.subject Language models es_ES
dc.subject.classification LENGUAJES Y SISTEMAS INFORMATICOS es_ES
dc.subject.other Máster Universitario en Inteligencia Artificial, Reconocimiento de Formas e Imagen Digital-Màster Universitari en Intel·ligència Artificial, Reconeixement de Formes i Imatge Digital es_ES
dc.title Exploring multimodal foundation models to improve interaction for people with speech impairments es_ES
dc.title.alternative Explorando modelos fundamentales multimodales para mejorar la interacción para personas con trastornos del habla es_ES
dc.title.alternative Explorant models fonamentals multimodals per millorar la interacció per a persones amb trastorns de la parla es_ES
dc.type Tesis de máster es_ES
dc.rights.accessRights Abierto es_ES
dc.contributor.affiliation Universitat Politècnica de València. Departamento de Sistemas Informáticos y Computación - Departament de Sistemes Informàtics i Computació es_ES
dc.description.bibliographicCitation Ferri Mollá, I. (2023). Exploring multimodal foundation models to improve interaction for people with speech impairments. Universitat Politècnica de València. http://hdl.handle.net/10251/197532 es_ES
dc.description.accrualMethod TFGM es_ES
dc.relation.pasarela TFGM\158231 es_ES


Este ítem aparece en la(s) siguiente(s) colección(ones)

Mostrar el registro sencillo del ítem