Mostrar el registro sencillo del ítem
dc.contributor.advisor | Herrero Debón, Alicia | es_ES |
dc.contributor.advisor | Ardid Ramírez, Joan Salvador | es_ES |
dc.contributor.author | Sanchez Gregori, Edgar | es_ES |
dc.date.accessioned | 2023-11-14T07:34:57Z | |
dc.date.available | 2023-11-14T07:34:57Z | |
dc.date.created | 2023-10-27 | |
dc.date.issued | 2023-11-14 | es_ES |
dc.identifier.uri | http://hdl.handle.net/10251/199590 | |
dc.description.abstract | [ES] La flexibilidad, la rapidez y la robustez en el aprendizaje y, en definitiva, en la toma de decisiones son aspectos clave a la hora de desarrollar robótica humanoide. En este TFG se analizará el comportamiento de bots en juegos competitivos de estrategia mixta, tales cómo el juego piedra-papel-tijeras o el "matching pennies" que es una simplificación que únicamente considera 2 alternativas. En el TFG, los bots serán operados mediante técnicas de aprendizaje por refuerzo ("reinforcement learning", RL), dotadas éstas de la capacidad de aprendizaje continuado y/o de estructuras de meta-aprendizaje. La intención original del TFG es doble, por una lado se pretende optimizar el comportamiento de los agentes de RL compitiendo contra otros algoritmos computacionales (véase https://www.kaggle.com/c/rock-paper-scissors). Por otro lado se pretende entender mejor nuestra toma de decisiones en este tipo de juegos: los primates, incluyéndonos a nosotros humanos, somos incapaces de seleccionar opciones de forma aleatoria y, por tanto, nos desviamos del comportamiento óptimo en este tipo de juegos. Esta incapacidad la suplantamos mediante cambios de estrategia (por ejemplo, win-stay/lose-switch) a partir de mecanismos de memoria e inferencia basada en teoria de la mente. El uso del aprendizaje por refuerzo para el estudio del comportamiento humano (y animal) nos permite entender como se producen las decisiones en situaciones complejas. | es_ES |
dc.description.abstract | [EN] Flexibility, speed and robustness in learning and, ultimately, in decision-making are key aspects when developing humanoid robotics. In this TFG the behavior of bots in competitive mixed strategy games will be analyzed, such as the rock-paper-scissors game or the "matching pennies" which is a simplification that only considers 2 alternatives. In the TFG, the bots will be operated using reinforcement learning techniques ("reinforcement learning", RL), endowed with the capacity for continuous learning and / or meta-learning structures. In this TFG we have a double aim, on the one hand it is intended to optimize the behavior of RL agents competing against other computational algorithms (see https://www.kaggle.com/c/rock-paper-scissors). On the other hand, it is intended to better understand our decision-making in these types of games: primates, including us humans, are unable to select options randomly and, therefore, we deviate from the optimal behavior in these types of games. We supplant this inability through changes in strategy (for example, win-stay / lose-switch) based on memory mechanisms and inference based on theory of mind. Using reinforcement learning to study human (and animal) behavior allows us to understand how decisions are produced in complex situations. | es_ES |
dc.format.extent | 63 | es_ES |
dc.language | Español | es_ES |
dc.publisher | Universitat Politècnica de València | es_ES |
dc.rights | Reconocimiento - No comercial - Compartir igual (by-nc-sa) | es_ES |
dc.subject | Aprendizaje por refuerzo | es_ES |
dc.subject | Meta-aprendizaje | es_ES |
dc.subject | Comportamiento de bots | es_ES |
dc.subject | Teoria de juegos | es_ES |
dc.subject | Reinforcement learning | es_ES |
dc.subject | Meta-learning | es_ES |
dc.subject | Bots behaviour | es_ES |
dc.subject | Game theory | es_ES |
dc.subject.classification | MATEMATICA APLICADA | es_ES |
dc.subject.other | Grado en Ingeniería Electrónica Industrial y Automática-Grau en Enginyeria Electrònica Industrial i Automàtica | es_ES |
dc.title | Optimización del comportamiento de bots aplicado a teoría de juegos | es_ES |
dc.title.alternative | Optimization of bot behaviour applied to game theory | es_ES |
dc.title.alternative | Optimització del comportament de bots aplicat a teoria de jocs | es_ES |
dc.type | Proyecto/Trabajo fin de carrera/grado | es_ES |
dc.rights.accessRights | Abierto | es_ES |
dc.contributor.affiliation | Universitat Politècnica de València. Departamento de Matemática Aplicada - Departament de Matemàtica Aplicada | es_ES |
dc.contributor.affiliation | Universitat Politècnica de València. Escuela Técnica Superior de Ingeniería del Diseño - Escola Tècnica Superior d'Enginyeria del Disseny | es_ES |
dc.description.bibliographicCitation | Sanchez Gregori, E. (2023). Optimización del comportamiento de bots aplicado a teoría de juegos. Universitat Politècnica de València. http://hdl.handle.net/10251/199590 | es_ES |
dc.description.accrualMethod | TFGM | es_ES |
dc.relation.pasarela | TFGM\153320 | es_ES |