Mostrar el registro sencillo del ítem
dc.contributor.advisor | Ferri Ramírez, César | es_ES |
dc.contributor.author | Aguado Sarrió, Guillem | es_ES |
dc.date.accessioned | 2015-09-30T11:36:57Z | |
dc.date.available | 2015-09-30T11:36:57Z | |
dc.date.created | 2015-09-09 | |
dc.date.issued | 2015-09-30 | es_ES |
dc.identifier.uri | http://hdl.handle.net/10251/55343 | |
dc.description.abstract | [ES] Este trabajo consiste en la aplicación de técnicas de aprendizaje automático sobre juegos para la elaboración de estrategias o aprendizaje de reglas. | es_ES |
dc.description.abstract | [ES] En el presente proyecto se pretende utilizar y ampliar la plataforma RL-GGP (Reinforcement Learning General Game Playing), para poder disponer en ella de una herramienta con la que realizar todo tipo de experimentos de algoritmos de Aprendizaje por Refuerzo con agentes jugando juntos a un juego por turnos especificado en lenguaje GDL (Game Description Language). La plataforma usa el GGP-Server, para mediante un juego en GDL, realizar partidas con diversos agentes creados con la herramienta de jugadores de juego genéricos Jocular, con la interfaz RL-Glue (Reinforcement Learning Glue), que hace de puente entre Jocular y los algoritmos. Estos algoritmos están adaptados de la librería de Hado Van Hasselt en C++, pero migrados a java. Había tres algoritmos en la implementación, Q-Learning, SARSA y QV-Learning. Se han introducido otros muy conocidos como Acla, Expected Sarsa y Cacla, y se ha adaptado la implementación de RL-GGP a ellos, y se ha modificado hasta cierto punto para hacer más fácil la experimentación general con varios agentes y algoritmos. Se han probado cinco de los seis algoritmos en el juego Tictactoe, que presenta un árbol de estados no demasiado grande, y en Clobber, que presenta un árbol mucho más grande. Estas pruebas se han hecho realizando series de partidas con diferentes algoritmos, en diferentes juegos, y con diferentes parámetros. Se ha excluido a Cacla de las pruebas, pero no de la implementación, porque a día de hoy la plataforma RL-GGP no maneja acciones continuas, y los juegos para test tienen acciones de naturaleza puramente discreta, pero se ha implementado por si en el futuro alguien lo deseara usar para realizar nuevos experimentos, implementando el manejo de acciones continuas en RL-GGP. Posteriormente a los experimentos, se han recogido, compilado y mostrado los datos y las conclusiones extraídas. | es_ES |
dc.format.extent | 42 | es_ES |
dc.language | Español | es_ES |
dc.publisher | Universitat Politècnica de València | es_ES |
dc.rights | Reconocimiento - No comercial - Compartir igual (by-nc-sa) | es_ES |
dc.subject | Agente | es_ES |
dc.subject | Algoritmo | es_ES |
dc.subject | Aprendizaje por refuerzo | es_ES |
dc.subject | RL-GGP | es_ES |
dc.subject | Hado Van Hasselt | es_ES |
dc.subject | RL-Glue | es_ES |
dc.subject | GGP | es_ES |
dc.subject | GGP-Server | es_ES |
dc.subject | QV-Learning | es_ES |
dc.subject | Acla | es_ES |
dc.subject | Expected Sarsa | es_ES |
dc.subject.classification | LENGUAJES Y SISTEMAS INFORMATICOS | es_ES |
dc.subject.other | Grado en Ingeniería Informática-Grau en Enginyeria Informàtica | es_ES |
dc.title | Aplicación de técnicas de aprendizaje automático sobre juegos | es_ES |
dc.type | Proyecto/Trabajo fin de carrera/grado | es_ES |
dc.rights.accessRights | Abierto | es_ES |
dc.contributor.affiliation | Universitat Politècnica de València. Escola Tècnica Superior d'Enginyeria Informàtica | es_ES |
dc.contributor.affiliation | Universitat Politècnica de València. Departamento de Sistemas Informáticos y Computación - Departament de Sistemes Informàtics i Computació | es_ES |
dc.description.bibliographicCitation | Aguado Sarrió, G. (2015). Aplicación de técnicas de aprendizaje automático sobre juegos. http://hdl.handle.net/10251/55343. | es_ES |
dc.description.accrualMethod | TFGM | es_ES |
dc.relation.pasarela | TFGM\17229 | es_ES |