Mostrar el registro sencillo del ítem
dc.contributor.advisor | Hernández Orallo, José | es_ES |
dc.contributor.advisor | Ekeberg, Örjan | es_ES |
dc.contributor.advisor | Conradt, Jörg | es_ES |
dc.contributor.author | Izquierdo Ayala, Pablo | es_ES |
dc.date.accessioned | 2019-09-26T06:51:04Z | |
dc.date.available | 2019-09-26T06:51:04Z | |
dc.date.created | 2019-09-11 | |
dc.date.issued | 2019-09-26 | es_ES |
dc.identifier.uri | http://hdl.handle.net/10251/126395 | |
dc.description.abstract | [EN] This research project elaborates a qualitative comparison between two different learning approaches, Reinforcement Learning (RL) and Inverse Reinforcement Learning (IRL) over the Gridworld Markov Decision Process. The interest focus will be set on the second learning paradigm, IRL, as it is considered to be relatively new and little work has been developed in this field of study. As observed, RL outperforms IRL, obtaining a correct solution in all the different scenarios studied. However, the behaviour of the IRL algorithms can be improved and this will be shown and analyzed as part of the scope. | es_ES |
dc.description.abstract | [SV] Denna studie är en kvalitativ jämförelse mellan två olika inlärningsangreppssätt, “Reinforcement Learning” (RL) och “Inverse Reinforcement Learning” (IRL), om använder "Gridworld", en "Markov Decision-Process". Fokus ligger på den senare algoritmen, IRL, eftersom den anses relativt ny och få studier har i nuläget gjorts kring den. I studien är RL mer fördelaktig än IRL, som skapar en korrekt lösning i alla olika scenarier som presenteras i studien. Beteendet hos IRL-algoritmen kan dock förbättras vilket också visas och analyseras i denna studie. | es_ES |
dc.description.abstract | [ES] Este proyecto de investigación elabora una comparación cualitativa entre dos enfoques de aprendizaje diferentes, Aprendizaje de refuerzo (RL) y Aprendizaje de refuerzo inverso (IRL) sobre el Proceso de decisión de Gridworld Markov. El interés se centrará en el segundo paradigma de aprendizaje, IRL, ya que se considera relativamente nuevo y se ha desarrollado poco trabajo en este campo de estudio. Como se observó, RL supera a IRL, obteniendo una solución correcta en todos los diferentes escenarios estudiados. Sin embargo, el comportamiento de los algoritmos IRL puede ser mejorado y esto se mostrará y analizará como parte del estudio. | es_ES |
dc.format.extent | 33 | es_ES |
dc.language | Inglés | es_ES |
dc.publisher | Universitat Politècnica de València | es_ES |
dc.rights | Reserva de todos los derechos | es_ES |
dc.subject | Reinforcement Learning | es_ES |
dc.subject | Inverse Reinforcement Learning | es_ES |
dc.subject | Markov decision process | es_ES |
dc.subject | Gridworld | es_ES |
dc.subject | Computer Science | es_ES |
dc.subject | Aprendizaje de refuerzo | es_ES |
dc.subject | Aprendizaje de refuerzo inverso | es_ES |
dc.subject | Procesos de decisión de Markow | es_ES |
dc.subject | Computación | es_ES |
dc.subject.classification | LENGUAJES Y SISTEMAS INFORMATICOS | es_ES |
dc.subject.other | Grado en Ingeniería Informática-Grau en Enginyeria Informàtica | es_ES |
dc.title | How well does inverse reinforcement learning perform in simple markov decision processes (MDP) in comparison to reinforcement learning? | es_ES |
dc.title.alternative | Comparativa entre el aprendizaje de refuerzo inverso en los procesos de decisión de markov (MDP) y el aprendizaje de refuerzo | es_ES |
dc.type | Proyecto/Trabajo fin de carrera/grado | es_ES |
dc.rights.accessRights | Cerrado | es_ES |
dc.contributor.affiliation | Universitat Politècnica de València. Departamento de Sistemas Informáticos y Computación - Departament de Sistemes Informàtics i Computació | es_ES |
dc.contributor.affiliation | Universitat Politècnica de València. Escola Tècnica Superior d'Enginyeria Informàtica | es_ES |
dc.description.bibliographicCitation | Izquierdo Ayala, P. (2019). How well does inverse reinforcement learning perform in simple markov decision processes (MDP) in comparison to reinforcement learning?. http://hdl.handle.net/10251/126395 | es_ES |
dc.description.accrualMethod | TFGM | es_ES |
dc.relation.pasarela | TFGM\108522 | es_ES |