Diseño de un modelo compuesto de arquitecturas de red neuronal convolucional y recurrente para descripción de video en entornos outdoor/indoor

Golfe San Martín, Alejandro

Identificarse

Buscar en RiuNet

Listar

Todo RiuNet
Esta colección

Mi cuenta

Acceder

Estadísticas

Ver Estadísticas de uso

Ayuda RiuNet

Admin. UPV

Compartir/Enviar a

Citas

Estadísticas

Diseño de un modelo compuesto de arquitecturas de red neuronal convolucional y recurrente para descripción de video en entornos outdoor/indoor

Mostrar el registro sencillo del ítem

Ficheros en el ítem

Nombre: Golfe - Dseño de ...

Tamaño: 2.512Mb

Formato: PDF

Descripción: TFM

Abrir

dc.contributor.advisor	Trénor Gomis, Beatriz Ana	es_ES
dc.contributor.advisor	Colomer Granero, Adrián	es_ES
dc.contributor.author	Golfe San Martín, Alejandro	es_ES
dc.date.accessioned	2021-04-19T17:16:01Z
dc.date.available	2021-04-19T17:16:01Z
dc.date.created	2021-03-24
dc.date.issued	2021-04-19	es_ES
dc.identifier.uri	http://hdl.handle.net/10251/165340
dc.description.abstract	[ES] Actualmente existen en todo el mundo un gran número de personas invidentes. Estas personas tienen grandes dificultades para desempeñar actividades cotidianas que son sencillas para cualquier individuo sano, esto es debido a que la vista es uno de los principales sentidos que posee el ser humano. El presente trabajo consiste en aplicar las técnicas más recientes de inteligencia artificial con el objetivo de crear un dispositivo de visión por computador que permita procesar lo que ocurre en cualquier entorno y generar una descripción textual del mismo. Gracias a la ayuda de un sintetizador de voz, se generará un fichero de audio a partir de las descripciones recibidas. De manera más específica, en este trabajo se diseña, implementa y valida un modelo compuesto por arquitecturas de redes neuronales convolucionales y recurrentes para descripción de video indoor/outdoor en cualquier entorno. Después de definir las métricas de evaluación necesarias, se justificará la elección del modelo óptimo para ser embebido en un dispositivo portable permitiendo evaluar el rendimiento del modelo implementado. La adaptación del modelo a un dispositivo portable estará compuesta tanto por el montaje, como por la programación y adecuación del problema a la capacidad del dispositivo portable empleado. Finalmente, se evalúa tanto el rendimiento y resultados que ofrece el modelo implementado como los conocimientos adquiridos por el alumno para el desarrollo del proyecto. Por último, se proponen posibles líneas de investigación para mejorar los resultados obtenidos.	es_ES
dc.description.abstract	[EN] There are currently a large number of blind people around the world. These people have great difficulties to perform daily activities that are simple for any healthy individual, since sight is one of the main senses possessed by human beings. The present work consists of applying the most recent techniques of artificial intelligence with the objective of creating a computer vision device that allows processing what happens in any environment and generating a textual description of it. Thanks to the help of a voice synthesizer, an audio file will be generated from the descriptions received. More specifically, this work designs, implements and validates a model composed of convolutional and recurrent neural network architectures for indoor/outdoor video description in any environment. After defining the necessary evaluation metrics, the choice of the optimal model to be embedded in a portable device will be justified to evaluate the performance of the implemented model. The adaptation of the model to a portable device will consist of the assembly, programming, and adaptation of the problem to the capacity of the portable device used. Finally, the performance and results offered by the implemented model are evaluated, as well as the knowledge acquired by the student for the development of the project. Finally, possible lines of research are proposed to improve the results obtained.	es_ES
dc.description.abstract	[CA] Actualment existeixen a tot el món un gran nombre de persones invidents. Aquestes persones tenen grans dificultats per a exercir activitats quotidianes que són senzilles per a qualsevol individu sa, això és pel fet que la vista és un dels principals sentits que posseeix l'ésser humà. El present treball consisteix a aplicar les tècniques més recents d'intel·ligència artificial amb l'objectiu de crear un dispositiu de visió per computador que permeta processar el que ocorre en qualsevol entorn i generar una descripció textual d'aquest. Gràcies a l'ajuda d'un sintetitzador de veu, es generarà un fitxer d'àudio a partir de les descripcions rebudes. De manera més específica, en aquest treball es dissenya, implementa i valida un model compost per arquitectures de xarxes neuronals convolucionals i recurrents per a descripció de vídeo indoor/outdoor en qualsevol entorn. Després de definir les mètriques d'avaluació necessàries, es justificarà l'elecció del model òptim per a ser embegut en un dispositiu portable permetent avaluar el rendiment del model implementat. L'adaptació del model a un dispositiu portable estarà composta tant pel muntatge, com per la programació i adequació del problema a la capacitat del dispositiu portable empleat. Finalment, es evalua tant el rendiment i resultats que ofereix el model implementat com els coneixements adquirits per l'alumne per al desenvolupament del projecte. Finalment, es proposen possibles línies d'investigació per a millorar els resultats obtinguts.	es_ES
dc.format.extent	89	es_ES
dc.language	Español	es_ES
dc.publisher	Universitat Politècnica de València	es_ES
dc.rights	Reserva de todos los derechos	es_ES
dc.subject	Visión artificial	es_ES
dc.subject	Deep learning	es_ES
dc.subject	Invidentes	es_ES
dc.subject	Inteligencia artificial	es_ES
dc.subject	Python	es_ES
dc.subject	Redes neuronales	es_ES
dc.subject	Raspberrypi	es_ES
dc.subject	Keras	es_ES
dc.subject	Artificial vision	es_ES
dc.subject	Blind people	es_ES
dc.subject	Artificial Intelligence	es_ES
dc.subject	Neural networks	es_ES
dc.subject	Raspberry Pi	es_ES
dc.subject.classification	TECNOLOGIA ELECTRONICA	es_ES
dc.subject.classification	TEORIA DE LA SEÑAL Y COMUNICACIONES	es_ES
dc.subject.other	Máster Universitario en Ingeniería Industrial-Màster Universitari en Enginyeria Industrial	es_ES
dc.title	Diseño de un modelo compuesto de arquitecturas de red neuronal convolucional y recurrente para descripción de video en entornos outdoor/indoor	es_ES
dc.type	Tesis de máster	es_ES
dc.rights.accessRights	Abierto	es_ES
dc.contributor.affiliation	Universitat Politècnica de València. Departamento de Ingeniería Electrónica - Departament d'Enginyeria Electrònica	es_ES
dc.contributor.affiliation	Universitat Politècnica de València. Escuela Técnica Superior de Ingenieros Industriales - Escola Tècnica Superior d'Enginyers Industrials	es_ES
dc.description.bibliographicCitation	Golfe San Martín, A. (2021). Diseño de un modelo compuesto de arquitecturas de red neuronal convolucional y recurrente para descripción de video en entornos outdoor/indoor. Universitat Politècnica de València. http://hdl.handle.net/10251/165340	es_ES
dc.description.accrualMethod	TFGM	es_ES
dc.relation.pasarela	TFGM\134606	es_ES

Este ítem aparece en la(s) siguiente(s) colección(ones)

ETSII - Trabajos académicos [10404]
Escuela Técnica Superior de Ingenieros Industriales

Mostrar el registro sencillo del ítem

Diseño de un modelo compuesto de arquitecturas de red neuronal convolucional y recurrente para descripción de video en entornos outdoor/indoor

RiuNet: Repositorio Institucional de la Universidad Politécnica de Valencia

Buscar en RiuNet

Listar

Todo RiuNet

Esta colección

Mi cuenta

Estadísticas

Ayuda RiuNet

Admin. UPV

Compartir/Enviar a

Citas

Estadísticas

Diseño de un modelo compuesto de arquitecturas de red neuronal convolucional y recurrente para descripción de video en entornos outdoor/indoor

Ficheros en el ítem

Este ítem aparece en la(s) siguiente(s) colección(ones)