Mostrar el registro sencillo del ítem
dc.contributor.advisor | Onaindia de la Rivaherrera, Eva | es_ES |
dc.contributor.advisor | Jiménez Celorrio, Sergio | es_ES |
dc.contributor.author | Diosdado López, Daniel | es_ES |
dc.date.accessioned | 2019-10-28T11:27:07Z | |
dc.date.available | 2019-10-28T11:27:07Z | |
dc.date.created | 2019-09-25 | |
dc.date.issued | 2019-10-28 | es_ES |
dc.identifier.uri | http://hdl.handle.net/10251/129836 | |
dc.description.abstract | [ES] Este trabajo describe un novedoso enfoque de crear agentes capaces de jugar a múltiples videojuegos que se basa en un mecanismo que intercala planificación y aprendizaje. La planificación se utiliza para explorar el espacio de búsqueda y el aprendizaje por refuerzo se utiliza para aprovechar la información de recompensas anteriores. Más específicamente, las acciones de estados visitadas por el planificador durante la búsqueda alimentan al algoritmo de aprendizaje que calcula las estimaciones de las políticas en forma de una red neuronal, que a su vez se utilizan para guiar el paso de planificación. Por lo tanto, la planificación se utiliza para llevar a cabo una búsqueda del mejor movimiento en el espacio de acciones y el aprendizaje se utiliza para extraer características de la pantalla y aprender una política para mejorar la búsqueda del paso de planificación. Nuestra propuesta se basa en un algoritmo de planificación basado en Iterated Width junto con una red neuronal convolucional para implementar el módulo de aprendizaje por refuerzo. Creamos dos mejoras sobre el método básico de planificación y aprendizaje (P&A). La primera mejora usa la puntuación del juego para disminuir la poda en el paso de planificación, y la segunda agrega a la primera un ajuste de los hiperparámetros y la modificación de la arquitectura de la red neuronal para mejorar las características extraídas y aumentar su número. Nuestras mejoras se prueban en juegos de la Atari 2600 del Arcade Learning Environment, utilizando el kit de herramientas OpenAI Gym. Se analizan los resultados y se discuten las fortalezas y debilidades de este enfoque. | es_ES |
dc.description.abstract | [EN] This paper describes a novel approach of creating multi-game agents for playing videogames that draws upon a mechanism that interleaves planning and learning. Planning is used for exploration of the search space and reinforcement learning is used to leverage past reward information. More specifically, the state-actions visited by the planner during search are fed to a learning algorithm that calculates policy estimates in the form of a Neural Network which are in turn used to guide the planning step. Thus, planning is used to carry out a search for the best move in the action space and learning is used to extract features from the screen and learn a policy in order to improve the search of the planning step. Our proposal relies on an Iterated Width-based planning algorithm along with a Convolutional Neural Network for implementing the Reinforcement Learning module. We come up with two enhancements over a base planning and learning (P&L) method. The first improvement uses the score of the game to lessen the pruning in the planning step, and the second one adds to the first one a fine-tuning of the hyperparameters and the modification of the neural network architecture to enhance the features extracted and increase the their number. Our enhancements are tested on Atari 2600 games from the Arcade Learning Environment using the OpenAI Gym toolkit. The results are analyzed and the strengths and weaknesses of this approach are discussed. | es_ES |
dc.description.abstract | [CA] Aquest treball descriu un nou enfocament de crear agents capaços de jugar a múltiples videojocs que es basa en un mecanisme que intercala planificació i aprenentatge. La planificació s’utilitza per a l’exploració de l’espai de cerca i l’aprenentatge per reforç s’utilitza per a obtindre informació de recompenses anteriors. Més concretament, les accions de estats visitades pel planificador durant la cerca es basen en un algoritme d’aprenentatge que calcula les estimacions de polítiques en forma de xarxa neuronal que s’utilitzen al seu torn per guiar el pas de la planificació. Així, la planificació s’utilitza per realitzar la cerca del millor moviment en l’espai d’acció i l’aprenentatge s’utilitza per extreure funcions de la pantalla i aprendre una política per millorar la cerca del pas de planificació. La nostra proposta es basa en un algoritme de planificació basat en Iterated Width juntament amb una xarxa neuronal convolucional per implementar el mòdul de aprenentatge per reforç. Es presenten dues millores sobre el mètode de planificació i aprenentatge base (P&A). La primera millora utilitza la puntuació del joc per a disminuir la poda en el pas de la planificació, i la segona afegeix a la primera un ajustament dels hiperparametres i la modificació de l’arquitectura de la xarxa neuronal per millorar les característiques extretes i augmentar el seu nombre. Les nostres millores es proven en els jocs de la Atari 2600 del Arcade Learning Environment mitjançant el kit d’eines OpenAI Gym. S’analitzen els resultats i es discuteixen els punts forts i els punts febles d’aquest enfocament. | es_ES |
dc.language | Inglés | es_ES |
dc.publisher | Universitat Politècnica de València | es_ES |
dc.rights | Reserva de todos los derechos | es_ES |
dc.subject | Videojuegos | es_ES |
dc.subject | Aprendizaje por refuerzo | es_ES |
dc.subject | Búsqueda | es_ES |
dc.subject | Planificación | es_ES |
dc.subject | Videogames | es_ES |
dc.subject | Reinforcement learning | es_ES |
dc.subject | Search | es_ES |
dc.subject | Planning | es_ES |
dc.subject.classification | LENGUAJES Y SISTEMAS INFORMATICOS | es_ES |
dc.subject.classification | CIENCIAS DE LA COMPUTACION E INTELIGENCIA ARTIFICIAL | es_ES |
dc.subject.other | Máster Universitario en Inteligencia Artificial, Reconocimiento de Formas e Imagen Digital-Màster Universitari en Intel·Ligència Artificial: Reconeixement de Formes i Imatge Digital | es_ES |
dc.title | Integrating reinforcement learning and automated planning for playing video-games | es_ES |
dc.title.alternative | Integración de aprendizaje por refuerzo y de técnicas de planificación automática para videojuegos | es_ES |
dc.type | Tesis de máster | es_ES |
dc.rights.accessRights | Abierto | es_ES |
dc.contributor.affiliation | Universitat Politècnica de València. Departamento de Sistemas Informáticos y Computación - Departament de Sistemes Informàtics i Computació | es_ES |
dc.description.bibliographicCitation | Diosdado López, D. (2019). Integrating reinforcement learning and automated planning for playing video-games. http://hdl.handle.net/10251/129836 | es_ES |
dc.description.accrualMethod | TFGM | es_ES |
dc.relation.pasarela | TFGM\105112 | es_ES |