Resumen:
|
[ES] En estos días, la cantidad de personas de edad avanzada es cada vez mayor, y con la vejez vienen los problemas de salud, ese es el caso de la pérdida parcial o total de la visión, sólo en España 920,900 personas tiene ...[+]
[ES] En estos días, la cantidad de personas de edad avanzada es cada vez mayor, y con la vejez vienen los problemas de salud, ese es el caso de la pérdida parcial o total de la visión, sólo en España 920,900 personas tiene baja visión y 58,300 ceguera total. Estas personas pierden la visión y la interacción con su entorno de forma gradual. En algunos casos puede ser reversible, pero para la mayoría, no es así, por lo que, existe un área de oportunidad para ayudar a este sector y mejorar su calidad de vida.
Se propone crear un sistema que utilice las tecnologías del lenguaje y la visión para actuar como herramienta de apoyo a los discapacitados visuales. Explorando tecnologías que combinen estos dos campos como Vision-Language Transformer, CNN junto con LSTM, Large Language Models para comunicarse con el usuario, además de una interfaz de voz, que se apoya en modelos Speech-to-Text como Whisper para que el usuario interactúe con el sistema. Este proyecto, en su descripción más simple, funciona como un sistema visual de respuesta a preguntas y descripción de imágenes.
Está previsto experimentar con modelos preentrenados, como los basados en transformers de la librería Huggingface, sobre un conjunto de datos de Visual Question Answering, para posteriormente realizar un fine-tuning de estos modelos; también está previsto experimentar con el uso de la técnica de Mezcla de Expertos (MoE por sus siglas en inglés) para mejorar los tiempos de inferencia de los modelos, así como evaluar el rendimiento de los Large Language Models (LLMs) en la generación de respuestas, y sustituirlos por Small Large Language Models, como puede ser el caso del modelo Gemma 2B, se buca experimentar con la multimodalidad a diferentes niveles, desde la realización de un modelo multimodal desde cero, el fine-tuning de modelos multimodales, la combinación de modelos para obtener esta multimodalidad y el ensamble de estas tecnologías en un sistema móvil funcional.
Para ello, el sistema necesita procesar tres modalidades distintas de datos, audio para la voz del usuario, imagen procedente de la cámara y texto, de modo que pueda entender las preguntas del usuario y responderlas. Se espera que este sistema sirva de herramienta de apoyo a las personas con discapacidad visual.
[-]
[EN] On these days, the amount of people of advanced age is increasing, and with the elderly comes health issues, that is the case for partial or total loss of vision, only in Spain 920,900 people has low vision and 58,300 ...[+]
[EN] On these days, the amount of people of advanced age is increasing, and with the elderly comes health issues, that is the case for partial or total loss of vision, only in Spain 920,900 people has low vision and 58,300 total blindness. These people loss their vision and interaction with their surrounding gradually. In some cases it can be reversible, but for most, it is not the case, so, there is an area of opportunity to help these sector and improve their quality of life.
It is proposed to create a system that uses language and vision technologies to act as a support tool for the visually impaired. Exploring technologies that combine these two fields such as Vision-Language Transformer, CNN along with LSTM, Large Language Models to communicate with the user, in addition to a voice interface, which relies on Speech-to-Text models such as Whisper for the user to interact with the system. This project, in its simplest description, works as a Visual Question Answering and image description system.
The plan is to experiment with pre-trained models such as those based on transformers from the HuggingFace library, on a Visual Question Answering dataset, to later perform a fine-tuning of these models; it is also planned to experiment with the use of the Mixture of Experts (MoE) technique to improve model inference times, as well as to evaluate the performance of Large Language Models (LLMs) in answer generation, and to substitute them for Small Large Language Models, as may be the case of the Gemma 2B model, I seek to experiment with multimodality at different levels, from making a multimodal model from scratch, the fine-tuning of multimodal models, the combination of models to obtain this multimodality and the assembly of these technologies into a functional mobile system.
In order to achieve that, the system needs to process three different modalities of data, audio for the user s voice, image given from the camera, and text, so it can understand questions from the user and answer them. This system is expect to serve as a support tool for visual impairment people.
[-]
|