- -

Diseño de un modelo compuesto de arquitecturas de red neuronal convolucional y recurrente para descripción de video en entornos outdoor/indoor

RiuNet: Repositorio Institucional de la Universidad Politécnica de Valencia

Compartir/Enviar a

Citas

Estadísticas

  • Estadisticas de Uso

Diseño de un modelo compuesto de arquitecturas de red neuronal convolucional y recurrente para descripción de video en entornos outdoor/indoor

Mostrar el registro sencillo del ítem

Ficheros en el ítem

dc.contributor.advisor Trénor Gomis, Beatriz Ana es_ES
dc.contributor.advisor Colomer Granero, Adrián es_ES
dc.contributor.author Golfe San Martín, Alejandro es_ES
dc.date.accessioned 2021-04-19T17:16:01Z
dc.date.available 2021-04-19T17:16:01Z
dc.date.created 2021-03-24
dc.date.issued 2021-04-19 es_ES
dc.identifier.uri http://hdl.handle.net/10251/165340
dc.description.abstract [ES] Actualmente existen en todo el mundo un gran número de personas invidentes. Estas personas tienen grandes dificultades para desempeñar actividades cotidianas que son sencillas para cualquier individuo sano, esto es debido a que la vista es uno de los principales sentidos que posee el ser humano. El presente trabajo consiste en aplicar las técnicas más recientes de inteligencia artificial con el objetivo de crear un dispositivo de visión por computador que permita procesar lo que ocurre en cualquier entorno y generar una descripción textual del mismo. Gracias a la ayuda de un sintetizador de voz, se generará un fichero de audio a partir de las descripciones recibidas. De manera más específica, en este trabajo se diseña, implementa y valida un modelo compuesto por arquitecturas de redes neuronales convolucionales y recurrentes para descripción de video indoor/outdoor en cualquier entorno. Después de definir las métricas de evaluación necesarias, se justificará la elección del modelo óptimo para ser embebido en un dispositivo portable permitiendo evaluar el rendimiento del modelo implementado. La adaptación del modelo a un dispositivo portable estará compuesta tanto por el montaje, como por la programación y adecuación del problema a la capacidad del dispositivo portable empleado. Finalmente, se evalúa tanto el rendimiento y resultados que ofrece el modelo implementado como los conocimientos adquiridos por el alumno para el desarrollo del proyecto. Por último, se proponen posibles líneas de investigación para mejorar los resultados obtenidos. es_ES
dc.description.abstract [EN] There are currently a large number of blind people around the world. These people have great difficulties to perform daily activities that are simple for any healthy individual, since sight is one of the main senses possessed by human beings. The present work consists of applying the most recent techniques of artificial intelligence with the objective of creating a computer vision device that allows processing what happens in any environment and generating a textual description of it. Thanks to the help of a voice synthesizer, an audio file will be generated from the descriptions received. More specifically, this work designs, implements and validates a model composed of convolutional and recurrent neural network architectures for indoor/outdoor video description in any environment. After defining the necessary evaluation metrics, the choice of the optimal model to be embedded in a portable device will be justified to evaluate the performance of the implemented model. The adaptation of the model to a portable device will consist of the assembly, programming, and adaptation of the problem to the capacity of the portable device used. Finally, the performance and results offered by the implemented model are evaluated, as well as the knowledge acquired by the student for the development of the project. Finally, possible lines of research are proposed to improve the results obtained. es_ES
dc.description.abstract [CA] Actualment existeixen a tot el món un gran nombre de persones invidents. Aquestes persones tenen grans dificultats per a exercir activitats quotidianes que són senzilles per a qualsevol individu sa, això és pel fet que la vista és un dels principals sentits que posseeix l'ésser humà. El present treball consisteix a aplicar les tècniques més recents d'intel·ligència artificial amb l'objectiu de crear un dispositiu de visió per computador que permeta processar el que ocorre en qualsevol entorn i generar una descripció textual d'aquest. Gràcies a l'ajuda d'un sintetitzador de veu, es generarà un fitxer d'àudio a partir de les descripcions rebudes. De manera més específica, en aquest treball es dissenya, implementa i valida un model compost per arquitectures de xarxes neuronals convolucionals i recurrents per a descripció de vídeo indoor/outdoor en qualsevol entorn. Després de definir les mètriques d'avaluació necessàries, es justificarà l'elecció del model òptim per a ser embegut en un dispositiu portable permetent avaluar el rendiment del model implementat. L'adaptació del model a un dispositiu portable estarà composta tant pel muntatge, com per la programació i adequació del problema a la capacitat del dispositiu portable empleat. Finalment, es evalua tant el rendiment i resultats que ofereix el model implementat com els coneixements adquirits per l'alumne per al desenvolupament del projecte. Finalment, es proposen possibles línies d'investigació per a millorar els resultats obtinguts. es_ES
dc.format.extent 89 es_ES
dc.language Español es_ES
dc.publisher Universitat Politècnica de València es_ES
dc.rights Reserva de todos los derechos es_ES
dc.subject Visión artificial es_ES
dc.subject Deep learning es_ES
dc.subject Invidentes es_ES
dc.subject Inteligencia artificial es_ES
dc.subject Python es_ES
dc.subject Redes neuronales es_ES
dc.subject Raspberrypi es_ES
dc.subject Keras es_ES
dc.subject Artificial vision es_ES
dc.subject Blind people es_ES
dc.subject Artificial Intelligence es_ES
dc.subject Neural networks es_ES
dc.subject Raspberry Pi es_ES
dc.subject.classification TECNOLOGIA ELECTRONICA es_ES
dc.subject.classification TEORIA DE LA SEÑAL Y COMUNICACIONES es_ES
dc.subject.other Máster Universitario en Ingeniería Industrial-Màster Universitari en Enginyeria Industrial es_ES
dc.title Diseño de un modelo compuesto de arquitecturas de red neuronal convolucional y recurrente para descripción de video en entornos outdoor/indoor es_ES
dc.type Tesis de máster es_ES
dc.rights.accessRights Abierto es_ES
dc.contributor.affiliation Universitat Politècnica de València. Departamento de Ingeniería Electrónica - Departament d'Enginyeria Electrònica es_ES
dc.contributor.affiliation Universitat Politècnica de València. Escuela Técnica Superior de Ingenieros Industriales - Escola Tècnica Superior d'Enginyers Industrials es_ES
dc.description.bibliographicCitation Golfe San Martín, A. (2021). Diseño de un modelo compuesto de arquitecturas de red neuronal convolucional y recurrente para descripción de video en entornos outdoor/indoor. Universitat Politècnica de València. http://hdl.handle.net/10251/165340 es_ES
dc.description.accrualMethod TFGM es_ES
dc.relation.pasarela TFGM\134606 es_ES


Este ítem aparece en la(s) siguiente(s) colección(ones)

Mostrar el registro sencillo del ítem