- -

Integrating reinforcement learning and automated planning for playing video-games

RiuNet: Repositorio Institucional de la Universidad Politécnica de Valencia

Compartir/Enviar a

Citas

Estadísticas

  • Estadisticas de Uso

Integrating reinforcement learning and automated planning for playing video-games

Mostrar el registro sencillo del ítem

Ficheros en el ítem

dc.contributor.advisor Onaindia de la Rivaherrera, Eva es_ES
dc.contributor.advisor Jiménez Celorrio, Sergio es_ES
dc.contributor.author Diosdado López, Daniel es_ES
dc.date.accessioned 2019-10-28T11:27:07Z
dc.date.available 2019-10-28T11:27:07Z
dc.date.created 2019-09-25
dc.date.issued 2019-10-28 es_ES
dc.identifier.uri http://hdl.handle.net/10251/129836
dc.description.abstract [ES] Este trabajo describe un novedoso enfoque de crear agentes capaces de jugar a múltiples videojuegos que se basa en un mecanismo que intercala planificación y aprendizaje. La planificación se utiliza para explorar el espacio de búsqueda y el aprendizaje por refuerzo se utiliza para aprovechar la información de recompensas anteriores. Más específicamente, las acciones de estados visitadas por el planificador durante la búsqueda alimentan al algoritmo de aprendizaje que calcula las estimaciones de las políticas en forma de una red neuronal, que a su vez se utilizan para guiar el paso de planificación. Por lo tanto, la planificación se utiliza para llevar a cabo una búsqueda del mejor movimiento en el espacio de acciones y el aprendizaje se utiliza para extraer características de la pantalla y aprender una política para mejorar la búsqueda del paso de planificación. Nuestra propuesta se basa en un algoritmo de planificación basado en Iterated Width junto con una red neuronal convolucional para implementar el módulo de aprendizaje por refuerzo. Creamos dos mejoras sobre el método básico de planificación y aprendizaje (P&A). La primera mejora usa la puntuación del juego para disminuir la poda en el paso de planificación, y la segunda agrega a la primera un ajuste de los hiperparámetros y la modificación de la arquitectura de la red neuronal para mejorar las características extraídas y aumentar su número. Nuestras mejoras se prueban en juegos de la Atari 2600 del Arcade Learning Environment, utilizando el kit de herramientas OpenAI Gym. Se analizan los resultados y se discuten las fortalezas y debilidades de este enfoque. es_ES
dc.description.abstract [EN] This paper describes a novel approach of creating multi-game agents for playing videogames that draws upon a mechanism that interleaves planning and learning. Planning is used for exploration of the search space and reinforcement learning is used to leverage past reward information. More specifically, the state-actions visited by the planner during search are fed to a learning algorithm that calculates policy estimates in the form of a Neural Network which are in turn used to guide the planning step. Thus, planning is used to carry out a search for the best move in the action space and learning is used to extract features from the screen and learn a policy in order to improve the search of the planning step. Our proposal relies on an Iterated Width-based planning algorithm along with a Convolutional Neural Network for implementing the Reinforcement Learning module. We come up with two enhancements over a base planning and learning (P&L) method. The first improvement uses the score of the game to lessen the pruning in the planning step, and the second one adds to the first one a fine-tuning of the hyperparameters and the modification of the neural network architecture to enhance the features extracted and increase the their number. Our enhancements are tested on Atari 2600 games from the Arcade Learning Environment using the OpenAI Gym toolkit. The results are analyzed and the strengths and weaknesses of this approach are discussed. es_ES
dc.description.abstract [CA] Aquest treball descriu un nou enfocament de crear agents capaços de jugar a múltiples videojocs que es basa en un mecanisme que intercala planificació i aprenentatge. La planificació s’utilitza per a l’exploració de l’espai de cerca i l’aprenentatge per reforç s’utilitza per a obtindre informació de recompenses anteriors. Més concretament, les accions de estats visitades pel planificador durant la cerca es basen en un algoritme d’aprenentatge que calcula les estimacions de polítiques en forma de xarxa neuronal que s’utilitzen al seu torn per guiar el pas de la planificació. Així, la planificació s’utilitza per realitzar la cerca del millor moviment en l’espai d’acció i l’aprenentatge s’utilitza per extreure funcions de la pantalla i aprendre una política per millorar la cerca del pas de planificació. La nostra proposta es basa en un algoritme de planificació basat en Iterated Width juntament amb una xarxa neuronal convolucional per implementar el mòdul de aprenentatge per reforç. Es presenten dues millores sobre el mètode de planificació i aprenentatge base (P&A). La primera millora utilitza la puntuació del joc per a disminuir la poda en el pas de la planificació, i la segona afegeix a la primera un ajustament dels hiperparametres i la modificació de l’arquitectura de la xarxa neuronal per millorar les característiques extretes i augmentar el seu nombre. Les nostres millores es proven en els jocs de la Atari 2600 del Arcade Learning Environment mitjançant el kit d’eines OpenAI Gym. S’analitzen els resultats i es discuteixen els punts forts i els punts febles d’aquest enfocament. es_ES
dc.language Inglés es_ES
dc.publisher Universitat Politècnica de València es_ES
dc.rights Reserva de todos los derechos es_ES
dc.subject Videojuegos es_ES
dc.subject Aprendizaje por refuerzo es_ES
dc.subject Búsqueda es_ES
dc.subject Planificación es_ES
dc.subject Videogames es_ES
dc.subject Reinforcement learning es_ES
dc.subject Search es_ES
dc.subject Planning es_ES
dc.subject.classification LENGUAJES Y SISTEMAS INFORMATICOS es_ES
dc.subject.classification CIENCIAS DE LA COMPUTACION E INTELIGENCIA ARTIFICIAL es_ES
dc.subject.other Máster Universitario en Inteligencia Artificial, Reconocimiento de Formas e Imagen Digital-Màster Universitari en Intel·Ligència Artificial: Reconeixement de Formes i Imatge Digital es_ES
dc.title Integrating reinforcement learning and automated planning for playing video-games es_ES
dc.title.alternative Integración de aprendizaje por refuerzo y de técnicas de planificación automática para videojuegos es_ES
dc.type Tesis de máster es_ES
dc.rights.accessRights Abierto es_ES
dc.contributor.affiliation Universitat Politècnica de València. Departamento de Sistemas Informáticos y Computación - Departament de Sistemes Informàtics i Computació es_ES
dc.description.bibliographicCitation Diosdado López, D. (2019). Integrating reinforcement learning and automated planning for playing video-games. http://hdl.handle.net/10251/129836 es_ES
dc.description.accrualMethod TFGM es_ES
dc.relation.pasarela TFGM\105112 es_ES


Este ítem aparece en la(s) siguiente(s) colección(ones)

Mostrar el registro sencillo del ítem