Resumen:
|
[ES] Actualmente existen en todo el mundo un gran número de personas invidentes. Estas personas tienen grandes dificultades para desempeñar actividades cotidianas que son sencillas para cualquier individuo sano, esto es ...[+]
[ES] Actualmente existen en todo el mundo un gran número de personas invidentes. Estas personas tienen grandes dificultades para desempeñar actividades cotidianas que son sencillas para cualquier individuo sano, esto es debido a que la vista es uno de los principales sentidos que posee el ser humano. El presente trabajo consiste en aplicar las técnicas más recientes de inteligencia artificial con el objetivo de crear un dispositivo de visión por computador que permita procesar lo que ocurre en cualquier entorno y generar una descripción textual del mismo. Gracias a la ayuda de un sintetizador de voz, se generará un fichero de audio a partir de las descripciones recibidas.
De manera más específica, en este trabajo se diseña, implementa y valida un modelo compuesto por arquitecturas de redes neuronales convolucionales y recurrentes para descripción de video indoor/outdoor en cualquier entorno. Después de definir las métricas de evaluación necesarias, se justificará la elección del modelo óptimo para ser embebido en un dispositivo portable permitiendo evaluar el rendimiento del modelo implementado. La adaptación del modelo a un dispositivo portable estará compuesta tanto por el montaje, como por la programación y adecuación del problema a la capacidad del dispositivo portable empleado.
Finalmente, se evalúa tanto el rendimiento y resultados que ofrece el modelo implementado como los conocimientos adquiridos por el alumno para el desarrollo del proyecto. Por último, se proponen posibles líneas de investigación para mejorar los resultados obtenidos.
[-]
[EN] There are currently a large number of blind people around the world. These people have great difficulties to perform daily activities that are simple for any healthy individual, since sight is one of the main senses ...[+]
[EN] There are currently a large number of blind people around the world. These people have great difficulties to perform daily activities that are simple for any healthy individual, since sight is one of the main senses possessed by human beings. The present work consists of applying the most recent techniques of artificial intelligence with the objective of creating a computer vision device that allows processing what happens in any environment and generating a textual description of it. Thanks to the help of a voice synthesizer, an audio file will be generated from the descriptions received.
More specifically, this work designs, implements and validates a model composed of convolutional and recurrent neural network architectures for indoor/outdoor video description in any environment. After defining the necessary evaluation metrics, the choice of the optimal model to be embedded in a portable device will be justified to evaluate the performance of the implemented model. The adaptation of the model to a portable device will consist of the assembly, programming, and adaptation of the problem to the capacity of the portable device used.
Finally, the performance and results offered by the implemented model are evaluated, as well as the knowledge acquired by the student for the development of the project. Finally, possible lines of research are proposed to improve the results obtained.
[-]
[CA] Actualment existeixen a tot el món un gran nombre de persones invidents. Aquestes persones tenen
grans dificultats per a exercir activitats quotidianes que són senzilles per a qualsevol individu sa, això
és pel fet ...[+]
[CA] Actualment existeixen a tot el món un gran nombre de persones invidents. Aquestes persones tenen
grans dificultats per a exercir activitats quotidianes que són senzilles per a qualsevol individu sa, això
és pel fet que la vista és un dels principals sentits que posseeix l'ésser humà. El present treball
consisteix a aplicar les tècniques més recents d'intel·ligència artificial amb l'objectiu de crear un
dispositiu de visió per computador que permeta processar el que ocorre en qualsevol entorn i generar
una descripció textual d'aquest. Gràcies a l'ajuda d'un sintetitzador de veu, es generarà un fitxer
d'àudio a partir de les descripcions rebudes.
De manera més específica, en aquest treball es dissenya, implementa i valida un model compost per
arquitectures de xarxes neuronals convolucionals i recurrents per a descripció de vídeo
indoor/outdoor en qualsevol entorn. Després de definir les mètriques d'avaluació necessàries, es
justificarà l'elecció del model òptim per a ser embegut en un dispositiu portable permetent avaluar el
rendiment del model implementat. L'adaptació del model a un dispositiu portable estarà composta
tant pel muntatge, com per la programació i adequació del problema a la capacitat del dispositiu
portable empleat.
Finalment, es evalua tant el rendiment i resultats que ofereix el model implementat com els
coneixements adquirits per l'alumne per al desenvolupament del projecte. Finalment, es proposen
possibles línies d'investigació per a millorar els resultats obtinguts.
[-]
|