- -

VISMAID: Visual Impairment Support through Multimodal AI-driven Description

RiuNet: Repositorio Institucional de la Universidad Politécnica de Valencia

Compartir/Enviar a

Citas

Estadísticas

  • Estadisticas de Uso

VISMAID: Visual Impairment Support through Multimodal AI-driven Description

Mostrar el registro sencillo del ítem

Ficheros en el ítem

dc.contributor.advisor Casacuberta Nolla, Francisco es_ES
dc.contributor.author Camas Nájera, Ramsés es_ES
dc.date.accessioned 2024-10-13T19:09:15Z
dc.date.available 2024-10-13T19:09:15Z
dc.date.created 2024-09-25
dc.date.issued 2024-10-13 es_ES
dc.identifier.uri http://hdl.handle.net/10251/209988
dc.description.abstract [ES] En estos días, la cantidad de personas de edad avanzada es cada vez mayor, y con la vejez vienen los problemas de salud, ese es el caso de la pérdida parcial o total de la visión, sólo en España 920,900 personas tiene baja visión y 58,300 ceguera total. Estas personas pierden la visión y la interacción con su entorno de forma gradual. En algunos casos puede ser reversible, pero para la mayoría, no es así, por lo que, existe un área de oportunidad para ayudar a este sector y mejorar su calidad de vida. Se propone crear un sistema que utilice las tecnologías del lenguaje y la visión para actuar como herramienta de apoyo a los discapacitados visuales. Explorando tecnologías que combinen estos dos campos como Vision-Language Transformer, CNN junto con LSTM, Large Language Models para comunicarse con el usuario, además de una interfaz de voz, que se apoya en modelos Speech-to-Text como Whisper para que el usuario interactúe con el sistema. Este proyecto, en su descripción más simple, funciona como un sistema visual de respuesta a preguntas y descripción de imágenes. Está previsto experimentar con modelos preentrenados, como los basados en transformers de la librería Huggingface, sobre un conjunto de datos de Visual Question Answering, para posteriormente realizar un fine-tuning de estos modelos; también está previsto experimentar con el uso de la técnica de Mezcla de Expertos (MoE por sus siglas en inglés) para mejorar los tiempos de inferencia de los modelos, así como evaluar el rendimiento de los Large Language Models (LLMs) en la generación de respuestas, y sustituirlos por Small Large Language Models, como puede ser el caso del modelo Gemma 2B, se buca experimentar con la multimodalidad a diferentes niveles, desde la realización de un modelo multimodal desde cero, el fine-tuning de modelos multimodales, la combinación de modelos para obtener esta multimodalidad y el ensamble de estas tecnologías en un sistema móvil funcional. Para ello, el sistema necesita procesar tres modalidades distintas de datos, audio para la voz del usuario, imagen procedente de la cámara y texto, de modo que pueda entender las preguntas del usuario y responderlas. Se espera que este sistema sirva de herramienta de apoyo a las personas con discapacidad visual. es_ES
dc.description.abstract [EN] On these days, the amount of people of advanced age is increasing, and with the elderly comes health issues, that is the case for partial or total loss of vision, only in Spain 920,900 people has low vision and 58,300 total blindness. These people loss their vision and interaction with their surrounding gradually. In some cases it can be reversible, but for most, it is not the case, so, there is an area of opportunity to help these sector and improve their quality of life. It is proposed to create a system that uses language and vision technologies to act as a support tool for the visually impaired. Exploring technologies that combine these two fields such as Vision-Language Transformer, CNN along with LSTM, Large Language Models to communicate with the user, in addition to a voice interface, which relies on Speech-to-Text models such as Whisper for the user to interact with the system. This project, in its simplest description, works as a Visual Question Answering and image description system. The plan is to experiment with pre-trained models such as those based on transformers from the HuggingFace library, on a Visual Question Answering dataset, to later perform a fine-tuning of these models; it is also planned to experiment with the use of the Mixture of Experts (MoE) technique to improve model inference times, as well as to evaluate the performance of Large Language Models (LLMs) in answer generation, and to substitute them for Small Large Language Models, as may be the case of the Gemma 2B model, I seek to experiment with multimodality at different levels, from making a multimodal model from scratch, the fine-tuning of multimodal models, the combination of models to obtain this multimodality and the assembly of these technologies into a functional mobile system. In order to achieve that, the system needs to process three different modalities of data, audio for the user s voice, image given from the camera, and text, so it can understand questions from the user and answer them. This system is expect to serve as a support tool for visual impairment people. es_ES
dc.format.extent 76 es_ES
dc.language Inglés es_ES
dc.publisher Universitat Politècnica de València es_ES
dc.rights Reserva de todos los derechos es_ES
dc.subject Multimodalidad es_ES
dc.subject Visual Question Answering es_ES
dc.subject Mixture-of-Experts es_ES
dc.subject Large Language Models es_ES
dc.subject Small Large Language Models es_ES
dc.subject Aplicación Móvil es_ES
dc.subject Deep Learning es_ES
dc.subject Grandes Modelos del lenguaje es_ES
dc.subject Modelo Visual y de Lenguaje es_ES
dc.subject Chatbot es_ES
dc.subject Transformer es_ES
dc.subject Aprendizaje Automático es_ES
dc.subject Procesamiento de Lenguaje Natural es_ES
dc.subject Reconocimiento Automático del Habla es_ES
dc.subject Visión por Computadora es_ES
dc.subject Multimodality es_ES
dc.subject Mobile Application es_ES
dc.subject Visual-Language Model es_ES
dc.subject Machine Learning es_ES
dc.subject Natural Language Processing es_ES
dc.subject Automatic Speech Recognition es_ES
dc.subject Computer Vision es_ES
dc.subject ChatGPT es_ES
dc.subject.other Máster Universitario en Inteligencia Artificial, Reconocimiento de Formas e Imagen Digital-Màster Universitari en Intel·ligència Artificial, Reconeixement de Formes i Imatge Digital es_ES
dc.title VISMAID: Visual Impairment Support through Multimodal AI-driven Description es_ES
dc.title.alternative ADVISIAM: Apoyo a la Discapacidad Visual con Inteligencia Artificial Multimodal es_ES
dc.title.alternative ADVISIAM: Suport a la Discapacitat Visual amb Intel·ligència Artificial Multimodal es_ES
dc.type Tesis de máster es_ES
dc.rights.accessRights Abierto es_ES
dc.contributor.affiliation Universitat Politècnica de València. Departamento de Sistemas Informáticos y Computación - Departament de Sistemes Informàtics i Computació es_ES
dc.description.bibliographicCitation Camas Nájera, R. (2024). VISMAID: Visual Impairment Support through Multimodal AI-driven Description. Universitat Politècnica de València. http://hdl.handle.net/10251/209988 es_ES
dc.description.accrualMethod TFGM es_ES
dc.relation.pasarela TFGM\162949 es_ES


Este ítem aparece en la(s) siguiente(s) colección(ones)

Mostrar el registro sencillo del ítem