Resumen:
|
[ES] Las personas con dificultades en la pronunciación, a menudo derivadas de patologías fisiológicas o cognitivas, enfrentan desafíos significativos al utilizar tecnologías de interacción por voz. Las tecnologías de ...[+]
[ES] Las personas con dificultades en la pronunciación, a menudo derivadas de patologías fisiológicas o cognitivas, enfrentan desafíos significativos al utilizar tecnologías de interacción por voz. Las tecnologías de asistencia actuales no abordan adecuadamente las complejidades únicas de estos desafíos, lo que destaca la necesidad de soluciones adaptables para mejorar las capacidades de comunicación y la calidad de vida.
Este proyecto tiene como objetivo adaptar varios sistemas de reconocimiento automático del habla a un grupo demográfico específico, en particular, a individuos con problemas de pronunciación, especialmente aquellos con afasia. Para lograrlo, se realizará un proceso de fine-tuning a diferentes sistemas de reconocimiento del habla preentrenados, con énfasis en la identificación de hiperparámetros óptimos para el entrenamiento y en la comparación de resultados utilizando la métrica del Word Error Rate (WER).
Además, el proyecto integrará modelos de reconocimiento del habla con modelos de descripción de imágenes para explorar en qué medida el contexto visual mejora la interpretación y comprensión del sistema sobre lo que los individuos con afasia están tratando de comunicar. La evaluación de estos sistemas incluirá valoraciones humanas. Así, este proyecto busca crear una solución integral para ayudar a las personas con afasia y mejorar la experiencia de Interacción Persona-Ordenador (HCI) para este grupo demográfico.
[-]
[EN] People with pronunciation difficulties, often stemming from physiological or cognitive pathologies, face significant challenges when using voice interaction technologies. Current assistive technologies do not adequately ...[+]
[EN] People with pronunciation difficulties, often stemming from physiological or cognitive pathologies, face significant challenges when using voice interaction technologies. Current assistive technologies do not adequately address the unique complexities of these challenges, highlighting the need for adaptable solutions to enhance communication abilities and quality of life.
This project aims to adapt various automatic speech recognition systems to a specific demographic group, particularly individuals with pronunciation problems, especially those with aphasia. To achieve this, fine-tuning will be applied to different pre-trained speech recognition systems, with a focus on identifying optimal hyperparameters for training and comparing results using the Word Error Rate (WER) metric.
Furthermore, the project will integrate speech recognition models with image description models to explore to what extent visual context enhances the system's interpretation and understanding of what individuals with aphasia are trying to communicate. Evaluation of these systems will include human assessments. Thus, this project seeks to create a comprehensive solution to assist people with aphasia and enhance the Human-Computer Interaction (HCI) experience for this demographic group.
[-]
|