VISMAID: Visual Impairment Support through Multimodal AI-driven Description

Camas Nájera, Ramsés

RiuNet repositorio UPV
:
Docencia
:
Trabajos académicos
:
Servicio de alumnado - Trabajos académicos
:
Ver ítem

Identificarse

Buscar en RiuNet

Listar

Todo RiuNet
Esta colección

Mi cuenta

Acceder

Estadísticas

Ver Estadísticas de uso

Ayuda RiuNet

Admin. UPV

Compartir/Enviar a

Citas

Estadísticas

VISMAID: Visual Impairment Support through Multimodal AI-driven Description

Mostrar el registro completo del ítem

Camas Nájera, R. (2024). VISMAID: Visual Impairment Support through Multimodal AI-driven Description. Universitat Politècnica de València. http://hdl.handle.net/10251/209988

Por favor, use este identificador para citar o enlazar este ítem: http://hdl.handle.net/10251/209988

Ficheros en el ítem

Nombre: Camas - VISMAID ...

Tamaño: 2.565Mb

Formato: PDF

Abrir/Preview

Metadatos del ítem

Título:

VISMAID: Visual Impairment Support through Multimodal AI-driven Description

Otro titulo:

ADVISIAM: Apoyo a la Discapacidad Visual con Inteligencia Artificial Multimodal
ADVISIAM: Suport a la Discapacitat Visual amb Intel·ligència Artificial Multimodal

Autor:

Camas Nájera, Ramsés

Director(es):

Casacuberta Nolla, Francisco

Entidad UPV:

Universitat Politècnica de València. Departamento de Sistemas Informáticos y Computación - Departament de Sistemes Informàtics i Computació

Fecha acto/lectura:

2024-09-25

Fecha difusión:

2024-10-13

Resumen:

[ES] En estos días, la cantidad de personas de edad avanzada es cada vez mayor, y con la vejez vienen los problemas de salud, ese es el caso de la pérdida parcial o total de la visión, sólo en España 920,900 personas tiene baja visión y 58,300 ceguera total. Estas personas pierden la visión y la interacción con su entorno de forma gradual. En algunos casos puede ser reversible, pero para la mayoría, no es así, por lo que, existe un área de oportunidad para ayudar a este sector y mejorar su calidad de vida. Se propone crear un sistema que utilice las tecnologías del lenguaje y la visión para actuar como herramienta de apoyo a los discapacitados visuales. Explorando tecnologías que combinen estos dos campos como Vision-Language Transformer, CNN junto con LSTM, Large Language Models para comunicarse con el usuario, además de una interfaz de voz, que se apoya en modelos Speech-to-Text como Whisper para que el usuario interactúe con el sistema. Este proyecto, en su descripción más simple, funciona como un sistema visual de respuesta a preguntas y descripción de imágenes. Está previsto experimentar con modelos preentrenados, como los basados en transformers de la librería Huggingface, sobre un conjunto de datos de Visual Question Answering, para posteriormente realizar un fine-tuning de estos modelos; también está previsto experimentar con el uso de la técnica de Mezcla de Expertos (MoE por sus siglas en inglés) para mejorar los tiempos de inferencia de los modelos, así como evaluar el rendimiento de los Large Language Models (LLMs) en la generación de respuestas, y sustituirlos por Small Large Language Models, como puede ser el caso del modelo Gemma 2B, se buca experimentar con la multimodalidad a diferentes niveles, desde la realización de un modelo multimodal desde cero, el fine-tuning de modelos multimodales, la combinación de modelos para obtener esta multimodalidad y el ensamble de estas tecnologías en un sistema móvil funcional. Para ello, el sistema necesita procesar tres modalidades distintas de datos, audio para la voz del usuario, imagen procedente de la cámara y texto, de modo que pueda entender las preguntas del usuario y responderlas. Se espera que este sistema sirva de herramienta de apoyo a las personas con discapacidad visual. [-]

[EN] On these days, the amount of people of advanced age is increasing, and with the elderly comes health issues, that is the case for partial or total loss of vision, only in Spain 920,900 people has low vision and 58,300 total blindness. These people loss their vision and interaction with their surrounding gradually. In some cases it can be reversible, but for most, it is not the case, so, there is an area of opportunity to help these sector and improve their quality of life. It is proposed to create a system that uses language and vision technologies to act as a support tool for the visually impaired. Exploring technologies that combine these two fields such as Vision-Language Transformer, CNN along with LSTM, Large Language Models to communicate with the user, in addition to a voice interface, which relies on Speech-to-Text models such as Whisper for the user to interact with the system. This project, in its simplest description, works as a Visual Question Answering and image description system. The plan is to experiment with pre-trained models such as those based on transformers from the HuggingFace library, on a Visual Question Answering dataset, to later perform a fine-tuning of these models; it is also planned to experiment with the use of the Mixture of Experts (MoE) technique to improve model inference times, as well as to evaluate the performance of Large Language Models (LLMs) in answer generation, and to substitute them for Small Large Language Models, as may be the case of the Gemma 2B model, I seek to experiment with multimodality at different levels, from making a multimodal model from scratch, the fine-tuning of multimodal models, the combination of models to obtain this multimodality and the assembly of these technologies into a functional mobile system. In order to achieve that, the system needs to process three different modalities of data, audio for the user s voice, image given from the camera, and text, so it can understand questions from the user and answer them. This system is expect to serve as a support tool for visual impairment people. [-]

Palabras clave:

Multimodalidad , Visual Question Answering , Mixture-of-Experts , Large Language Models , Small Large Language Models , Aplicación Móvil , Deep Learning , Grandes Modelos del lenguaje , Modelo Visual y de Lenguaje , Chatbot , Transformer , Aprendizaje Automático , Procesamiento de Lenguaje Natural , Reconocimiento Automático del Habla , Visión por Computadora , Multimodality , Mobile Application , Visual-Language Model , Machine Learning , Natural Language Processing , Automatic Speech Recognition , Computer Vision , ChatGPT

Derechos de uso:

Reserva de todos los derechos

Editorial:

Universitat Politècnica de València

Titulación:

Máster Universitario en Inteligencia Artificial, Reconocimiento de Formas e Imagen Digital-Màster Universitari en Intel·ligència Artificial, Reconeixement de Formes i Imatge Digital

Tipo:

Tesis de máster

recommendations

Este ítem aparece en la(s) siguiente(s) colección(ones)

Servicio de alumnado - Trabajos académicos [7391]

Mostrar el registro completo del ítem

VISMAID: Visual Impairment Support through Multimodal AI-driven Description

RiuNet: Repositorio Institucional de la Universidad Politécnica de Valencia

Buscar en RiuNet

Listar

Todo RiuNet

Esta colección

Mi cuenta

Estadísticas

Ayuda RiuNet

Admin. UPV

Compartir/Enviar a

Citas

Estadísticas

VISMAID: Visual Impairment Support through Multimodal AI-driven Description

Ficheros en el ítem

Metadatos del ítem

recommendations

Este ítem aparece en la(s) siguiente(s) colección(ones)