Mostrar el registro sencillo del ítem
dc.contributor.advisor | Linares Pellicer, Jordi Joan | es_ES |
dc.contributor.author | Ferri Mollá, Isabel | es_ES |
dc.date.accessioned | 2023-10-04T10:57:06Z | |
dc.date.available | 2023-10-04T10:57:06Z | |
dc.date.created | 2023-09-19 | |
dc.date.issued | 2023-10-04 | es_ES |
dc.identifier.uri | http://hdl.handle.net/10251/197532 | |
dc.description.abstract | [ES] Las personas con dificultades en la pronunciación, a menudo derivadas de patologías fisiológicas o cognitivas, enfrentan desafíos significativos al utilizar tecnologías de interacción por voz. Las tecnologías de asistencia actuales no abordan adecuadamente las complejidades únicas de estos desafíos, lo que destaca la necesidad de soluciones adaptables para mejorar las capacidades de comunicación y la calidad de vida. Este proyecto tiene como objetivo adaptar varios sistemas de reconocimiento automático del habla a un grupo demográfico específico, en particular, a individuos con problemas de pronunciación, especialmente aquellos con afasia. Para lograrlo, se realizará un proceso de fine-tuning a diferentes sistemas de reconocimiento del habla preentrenados, con énfasis en la identificación de hiperparámetros óptimos para el entrenamiento y en la comparación de resultados utilizando la métrica del Word Error Rate (WER). Además, el proyecto integrará modelos de reconocimiento del habla con modelos de descripción de imágenes para explorar en qué medida el contexto visual mejora la interpretación y comprensión del sistema sobre lo que los individuos con afasia están tratando de comunicar. La evaluación de estos sistemas incluirá valoraciones humanas. Así, este proyecto busca crear una solución integral para ayudar a las personas con afasia y mejorar la experiencia de Interacción Persona-Ordenador (HCI) para este grupo demográfico. | es_ES |
dc.description.abstract | [EN] People with pronunciation difficulties, often stemming from physiological or cognitive pathologies, face significant challenges when using voice interaction technologies. Current assistive technologies do not adequately address the unique complexities of these challenges, highlighting the need for adaptable solutions to enhance communication abilities and quality of life. This project aims to adapt various automatic speech recognition systems to a specific demographic group, particularly individuals with pronunciation problems, especially those with aphasia. To achieve this, fine-tuning will be applied to different pre-trained speech recognition systems, with a focus on identifying optimal hyperparameters for training and comparing results using the Word Error Rate (WER) metric. Furthermore, the project will integrate speech recognition models with image description models to explore to what extent visual context enhances the system's interpretation and understanding of what individuals with aphasia are trying to communicate. Evaluation of these systems will include human assessments. Thus, this project seeks to create a comprehensive solution to assist people with aphasia and enhance the Human-Computer Interaction (HCI) experience for this demographic group. | es_ES |
dc.format.extent | 57 | es_ES |
dc.language | Inglés | es_ES |
dc.publisher | Universitat Politècnica de València | es_ES |
dc.rights | Reserva de todos los derechos | es_ES |
dc.subject | Interacción Persona-Ordenador (HCI) | es_ES |
dc.subject | Modelo de lenguaje | es_ES |
dc.subject | Problemas de dicción | es_ES |
dc.subject | Descripción de imágenes | es_ES |
dc.subject | Foundation models | es_ES |
dc.subject | Pronunciation problems | es_ES |
dc.subject | Image captioning | es_ES |
dc.subject | Automatic Speech Recognition (ASR) | es_ES |
dc.subject | Language models | es_ES |
dc.subject.classification | LENGUAJES Y SISTEMAS INFORMATICOS | es_ES |
dc.subject.other | Máster Universitario en Inteligencia Artificial, Reconocimiento de Formas e Imagen Digital-Màster Universitari en Intel·ligència Artificial, Reconeixement de Formes i Imatge Digital | es_ES |
dc.title | Exploring multimodal foundation models to improve interaction for people with speech impairments | es_ES |
dc.title.alternative | Explorando modelos fundamentales multimodales para mejorar la interacción para personas con trastornos del habla | es_ES |
dc.title.alternative | Explorant models fonamentals multimodals per millorar la interacció per a persones amb trastorns de la parla | es_ES |
dc.type | Tesis de máster | es_ES |
dc.rights.accessRights | Abierto | es_ES |
dc.contributor.affiliation | Universitat Politècnica de València. Departamento de Sistemas Informáticos y Computación - Departament de Sistemes Informàtics i Computació | es_ES |
dc.description.bibliographicCitation | Ferri Mollá, I. (2023). Exploring multimodal foundation models to improve interaction for people with speech impairments. Universitat Politècnica de València. http://hdl.handle.net/10251/197532 | es_ES |
dc.description.accrualMethod | TFGM | es_ES |
dc.relation.pasarela | TFGM\158231 | es_ES |