[ES] Este trabajo describe un novedoso enfoque de crear agentes capaces de jugar a múltiples videojuegos que se basa en un mecanismo que intercala planificación y aprendizaje. La planificación se utiliza para explorar el ...[+]
[ES] Este trabajo describe un novedoso enfoque de crear agentes capaces de jugar a múltiples videojuegos que se basa en un mecanismo que intercala planificación y aprendizaje. La planificación se utiliza para explorar el espacio de búsqueda y el aprendizaje por
refuerzo se utiliza para aprovechar la información de recompensas anteriores. Más específicamente, las acciones de estados visitadas por el planificador durante la búsqueda
alimentan al algoritmo de aprendizaje que calcula las estimaciones de las políticas en forma de una red neuronal, que a su vez se utilizan para guiar el paso de planificación. Por
lo tanto, la planificación se utiliza para llevar a cabo una búsqueda del mejor movimiento en el espacio de acciones y el aprendizaje se utiliza para extraer características de la
pantalla y aprender una política para mejorar la búsqueda del paso de planificación.
Nuestra propuesta se basa en un algoritmo de planificación basado en Iterated Width
junto con una red neuronal convolucional para implementar el módulo de aprendizaje
por refuerzo. Creamos dos mejoras sobre el método básico de planificación y aprendizaje
(P&A). La primera mejora usa la puntuación del juego para disminuir la poda en el paso de planificación, y la segunda agrega a la primera un ajuste de los hiperparámetros
y la modificación de la arquitectura de la red neuronal para mejorar las características
extraídas y aumentar su número.
Nuestras mejoras se prueban en juegos de la Atari 2600 del Arcade Learning Environment, utilizando el kit de herramientas OpenAI Gym. Se analizan los resultados y se
discuten las fortalezas y debilidades de este enfoque.
[-]
[EN] This paper describes a novel approach of creating multi-game agents for playing
videogames that draws upon a mechanism that interleaves planning and learning. Planning is used for exploration of the search space and ...[+]
[EN] This paper describes a novel approach of creating multi-game agents for playing
videogames that draws upon a mechanism that interleaves planning and learning. Planning is used for exploration of the search space and reinforcement learning is used to
leverage past reward information. More specifically, the state-actions visited by the planner during search are fed to a learning algorithm that calculates policy estimates in the
form of a Neural Network which are in turn used to guide the planning step. Thus, planning is used to carry out a search for the best move in the action space and learning is
used to extract features from the screen and learn a policy in order to improve the search
of the planning step.
Our proposal relies on an Iterated Width-based planning algorithm along with a Convolutional Neural Network for implementing the Reinforcement Learning module. We
come up with two enhancements over a base planning and learning (P&L) method. The
first improvement uses the score of the game to lessen the pruning in the planning step,
and the second one adds to the first one a fine-tuning of the hyperparameters and the
modification of the neural network architecture to enhance the features extracted and
increase the their number.
Our enhancements are tested on Atari 2600 games from the Arcade Learning Environment using the OpenAI Gym toolkit. The results are analyzed and the strengths and
weaknesses of this approach are discussed.
[-]
[CA] Aquest treball descriu un nou enfocament de crear agents capaços de jugar a múltiples videojocs que es basa en un mecanisme que intercala planificació i aprenentatge. La
planificació s’utilitza per a l’exploració de ...[+]
[CA] Aquest treball descriu un nou enfocament de crear agents capaços de jugar a múltiples videojocs que es basa en un mecanisme que intercala planificació i aprenentatge. La
planificació s’utilitza per a l’exploració de l’espai de cerca i l’aprenentatge per reforç s’utilitza per a obtindre informació de recompenses anteriors. Més concretament, les accions
de estats visitades pel planificador durant la cerca es basen en un algoritme d’aprenentatge que calcula les estimacions de polítiques en forma de xarxa neuronal que s’utilitzen
al seu torn per guiar el pas de la planificació. Així, la planificació s’utilitza per realitzar la
cerca del millor moviment en l’espai d’acció i l’aprenentatge s’utilitza per extreure funcions de la pantalla i aprendre una política per millorar la cerca del pas de planificació.
La nostra proposta es basa en un algoritme de planificació basat en Iterated Width
juntament amb una xarxa neuronal convolucional per implementar el mòdul de aprenentatge per reforç. Es presenten dues millores sobre el mètode de planificació i aprenentatge
base (P&A). La primera millora utilitza la puntuació del joc per a disminuir la poda en el
pas de la planificació, i la segona afegeix a la primera un ajustament dels hiperparametres i la modificació de l’arquitectura de la xarxa neuronal per millorar les característiques
extretes i augmentar el seu nombre.
Les nostres millores es proven en els jocs de la Atari 2600 del Arcade Learning Environment mitjançant el kit d’eines OpenAI Gym. S’analitzen els resultats i es discuteixen
els punts forts i els punts febles d’aquest enfocament.
[-]
|