Mostrar el registro sencillo del ítem
dc.contributor.advisor | Sala Piqueras, Antonio | es_ES |
dc.contributor.advisor | Armesto Ángel, Leopoldo | es_ES |
dc.contributor.author | Pastor Alcaraz, José Manuel | es_ES |
dc.date.accessioned | 2017-02-07T12:42:23Z | |
dc.date.available | 2017-02-07T12:42:23Z | |
dc.date.created | 2016-09-28 | |
dc.date.issued | 2017-02-07 | es_ES |
dc.identifier.uri | http://hdl.handle.net/10251/77698 | |
dc.description.abstract | [EN] The aim of this master thesis is to study the state of art of reinforment learning, particularly those based on policy search methods and to apply such techniques to a 3DOFs inverted pendulum mechanism. The controller must learn an "optimal control" policy that maximizes the reward (as a cost function) without using any model. The controller will learn on-policy or off-policy a closed loop feedback control law to set the pendulum on its marginally stable vertical position. This work is oriented to students who want to extend further work on his/her PhD. thesis in complex robot systems. | es_ES |
dc.description.abstract | [ES] El objetivo de la tesina es estudiar las técnicas de aprendizaje por refuerzo con métodos basados en búsqueda de políticas para sistemas electromecánicos, pudiendo se estas aplicarse a una plataforma de 3 DOFs de péndulo invertido. En las técnicas de aprendizaje por refuerzo el controlador debe aprender cual es la política de "control óptima" que maximiza su recompensa (definida mediante una función de coste) sin la utilización de ningún modelo. El controlador aprenderá en línea o fuera de línea una ley de control en bucle cerrado mediante experimentación hasta que consiga colocar el péndulo en su posición vertical de equilibrio inestable. La tesina está enfocada a futuros doctorandos que quieran realizar la tesis en este ámbito, con extensión a sistemas robóticos más complejos. | es_ES |
dc.language | Español | es_ES |
dc.publisher | Universitat Politècnica de València | es_ES |
dc.rights | Reserva de todos los derechos | es_ES |
dc.subject | Reinforcement learning | es_ES |
dc.subject | Policy search | es_ES |
dc.subject | Optimal control | es_ES |
dc.subject | Robotics | es_ES |
dc.subject | Control | es_ES |
dc.subject | Aprendizaje por refuerzo | es_ES |
dc.subject | Búsqueda de política | es_ES |
dc.subject | Control óptimo | es_ES |
dc.subject | Robótica | es_ES |
dc.subject.classification | INGENIERIA DE SISTEMAS Y AUTOMATICA | es_ES |
dc.subject.other | Máster Universitario en Automática e Informática Industrial-Màster Universitari en Automàtica i Informàtica Industrial | es_ES |
dc.title | Aprendizaje por refuerzo mediante métodos de búsqueda de política en sistemas electromecánicos | es_ES |
dc.type | Tesis de máster | es_ES |
dc.rights.accessRights | Cerrado | es_ES |
dc.contributor.affiliation | Universitat Politècnica de València. Departamento de Ingeniería de Sistemas y Automática - Departament d'Enginyeria de Sistemes i Automàtica | es_ES |
dc.description.bibliographicCitation | Pastor Alcaraz, JM. (2016). Aprendizaje por refuerzo mediante métodos de búsqueda de política en sistemas electromecánicos. http://hdl.handle.net/10251/77698 | es_ES |
dc.description.accrualMethod | TFGM | es_ES |
dc.relation.pasarela | TFGM\39612 | es_ES |