Resumen:
|
[ES] Este trabajo consiste en la aplicación de técnicas de aprendizaje automático sobre juegos para la elaboración de estrategias o aprendizaje de reglas.
[ES] En el presente proyecto se pretende utilizar y ampliar la plataforma RL-GGP
(Reinforcement Learning General Game Playing), para poder disponer en ella de una
herramienta con la que realizar todo tipo de experimentos ...[+]
[ES] En el presente proyecto se pretende utilizar y ampliar la plataforma RL-GGP
(Reinforcement Learning General Game Playing), para poder disponer en ella de una
herramienta con la que realizar todo tipo de experimentos de algoritmos de
Aprendizaje por Refuerzo con agentes jugando juntos a un juego por turnos
especificado en lenguaje GDL (Game Description Language).
La plataforma usa el GGP-Server, para mediante un juego en GDL, realizar partidas
con diversos agentes creados con la herramienta de jugadores de juego genéricos
Jocular, con la interfaz RL-Glue (Reinforcement Learning Glue), que hace de puente
entre Jocular y los algoritmos.
Estos algoritmos están adaptados de la librería de Hado Van Hasselt en C++, pero
migrados a java. Había tres algoritmos en la implementación, Q-Learning, SARSA y
QV-Learning. Se han introducido otros muy conocidos como Acla, Expected Sarsa y
Cacla, y se ha adaptado la implementación de RL-GGP a ellos, y se ha modificado hasta
cierto punto para hacer más fácil la experimentación general con varios agentes y
algoritmos.
Se han probado cinco de los seis algoritmos en el juego Tictactoe, que presenta un
árbol de estados no demasiado grande, y en Clobber, que presenta un árbol mucho más
grande. Estas pruebas se han hecho realizando series de partidas con diferentes
algoritmos, en diferentes juegos, y con diferentes parámetros. Se ha excluido a Cacla de
las pruebas, pero no de la implementación, porque a día de hoy la plataforma RL-GGP
no maneja acciones continuas, y los juegos para test tienen acciones de naturaleza
puramente discreta, pero se ha implementado por si en el futuro alguien lo deseara
usar para realizar nuevos experimentos, implementando el manejo de acciones
continuas en RL-GGP.
Posteriormente a los experimentos, se han recogido, compilado y mostrado los datos
y las conclusiones extraídas.
[-]
|