Mostrar el registro sencillo del ítem
dc.contributor.advisor | Trénor Gomis, Beatriz Ana | es_ES |
dc.contributor.advisor | Colomer Granero, Adrián | es_ES |
dc.contributor.author | Golfe San Martín, Alejandro | es_ES |
dc.date.accessioned | 2021-04-19T17:16:01Z | |
dc.date.available | 2021-04-19T17:16:01Z | |
dc.date.created | 2021-03-24 | |
dc.date.issued | 2021-04-19 | es_ES |
dc.identifier.uri | http://hdl.handle.net/10251/165340 | |
dc.description.abstract | [ES] Actualmente existen en todo el mundo un gran número de personas invidentes. Estas personas tienen grandes dificultades para desempeñar actividades cotidianas que son sencillas para cualquier individuo sano, esto es debido a que la vista es uno de los principales sentidos que posee el ser humano. El presente trabajo consiste en aplicar las técnicas más recientes de inteligencia artificial con el objetivo de crear un dispositivo de visión por computador que permita procesar lo que ocurre en cualquier entorno y generar una descripción textual del mismo. Gracias a la ayuda de un sintetizador de voz, se generará un fichero de audio a partir de las descripciones recibidas. De manera más específica, en este trabajo se diseña, implementa y valida un modelo compuesto por arquitecturas de redes neuronales convolucionales y recurrentes para descripción de video indoor/outdoor en cualquier entorno. Después de definir las métricas de evaluación necesarias, se justificará la elección del modelo óptimo para ser embebido en un dispositivo portable permitiendo evaluar el rendimiento del modelo implementado. La adaptación del modelo a un dispositivo portable estará compuesta tanto por el montaje, como por la programación y adecuación del problema a la capacidad del dispositivo portable empleado. Finalmente, se evalúa tanto el rendimiento y resultados que ofrece el modelo implementado como los conocimientos adquiridos por el alumno para el desarrollo del proyecto. Por último, se proponen posibles líneas de investigación para mejorar los resultados obtenidos. | es_ES |
dc.description.abstract | [EN] There are currently a large number of blind people around the world. These people have great difficulties to perform daily activities that are simple for any healthy individual, since sight is one of the main senses possessed by human beings. The present work consists of applying the most recent techniques of artificial intelligence with the objective of creating a computer vision device that allows processing what happens in any environment and generating a textual description of it. Thanks to the help of a voice synthesizer, an audio file will be generated from the descriptions received. More specifically, this work designs, implements and validates a model composed of convolutional and recurrent neural network architectures for indoor/outdoor video description in any environment. After defining the necessary evaluation metrics, the choice of the optimal model to be embedded in a portable device will be justified to evaluate the performance of the implemented model. The adaptation of the model to a portable device will consist of the assembly, programming, and adaptation of the problem to the capacity of the portable device used. Finally, the performance and results offered by the implemented model are evaluated, as well as the knowledge acquired by the student for the development of the project. Finally, possible lines of research are proposed to improve the results obtained. | es_ES |
dc.description.abstract | [CA] Actualment existeixen a tot el món un gran nombre de persones invidents. Aquestes persones tenen grans dificultats per a exercir activitats quotidianes que són senzilles per a qualsevol individu sa, això és pel fet que la vista és un dels principals sentits que posseeix l'ésser humà. El present treball consisteix a aplicar les tècniques més recents d'intel·ligència artificial amb l'objectiu de crear un dispositiu de visió per computador que permeta processar el que ocorre en qualsevol entorn i generar una descripció textual d'aquest. Gràcies a l'ajuda d'un sintetitzador de veu, es generarà un fitxer d'àudio a partir de les descripcions rebudes. De manera més específica, en aquest treball es dissenya, implementa i valida un model compost per arquitectures de xarxes neuronals convolucionals i recurrents per a descripció de vídeo indoor/outdoor en qualsevol entorn. Després de definir les mètriques d'avaluació necessàries, es justificarà l'elecció del model òptim per a ser embegut en un dispositiu portable permetent avaluar el rendiment del model implementat. L'adaptació del model a un dispositiu portable estarà composta tant pel muntatge, com per la programació i adequació del problema a la capacitat del dispositiu portable empleat. Finalment, es evalua tant el rendiment i resultats que ofereix el model implementat com els coneixements adquirits per l'alumne per al desenvolupament del projecte. Finalment, es proposen possibles línies d'investigació per a millorar els resultats obtinguts. | es_ES |
dc.format.extent | 89 | es_ES |
dc.language | Español | es_ES |
dc.publisher | Universitat Politècnica de València | es_ES |
dc.rights | Reserva de todos los derechos | es_ES |
dc.subject | Visión artificial | es_ES |
dc.subject | Deep learning | es_ES |
dc.subject | Invidentes | es_ES |
dc.subject | Inteligencia artificial | es_ES |
dc.subject | Python | es_ES |
dc.subject | Redes neuronales | es_ES |
dc.subject | Raspberrypi | es_ES |
dc.subject | Keras | es_ES |
dc.subject | Artificial vision | es_ES |
dc.subject | Blind people | es_ES |
dc.subject | Artificial Intelligence | es_ES |
dc.subject | Neural networks | es_ES |
dc.subject | Raspberry Pi | es_ES |
dc.subject.classification | TECNOLOGIA ELECTRONICA | es_ES |
dc.subject.classification | TEORIA DE LA SEÑAL Y COMUNICACIONES | es_ES |
dc.subject.other | Máster Universitario en Ingeniería Industrial-Màster Universitari en Enginyeria Industrial | es_ES |
dc.title | Diseño de un modelo compuesto de arquitecturas de red neuronal convolucional y recurrente para descripción de video en entornos outdoor/indoor | es_ES |
dc.type | Tesis de máster | es_ES |
dc.rights.accessRights | Abierto | es_ES |
dc.contributor.affiliation | Universitat Politècnica de València. Departamento de Ingeniería Electrónica - Departament d'Enginyeria Electrònica | es_ES |
dc.contributor.affiliation | Universitat Politècnica de València. Escuela Técnica Superior de Ingenieros Industriales - Escola Tècnica Superior d'Enginyers Industrials | es_ES |
dc.description.bibliographicCitation | Golfe San Martín, A. (2021). Diseño de un modelo compuesto de arquitecturas de red neuronal convolucional y recurrente para descripción de video en entornos outdoor/indoor. Universitat Politècnica de València. http://hdl.handle.net/10251/165340 | es_ES |
dc.description.accrualMethod | TFGM | es_ES |
dc.relation.pasarela | TFGM\134606 | es_ES |