- -

Control Multimodal en Entornos Inciertos usando Aprendizaje por Refuerzos y Procesos Gaussianos

RiuNet: Institutional repository of the Polithecnic University of Valencia

Share/Send to

Cited by

Statistics

Control Multimodal en Entornos Inciertos usando Aprendizaje por Refuerzos y Procesos Gaussianos

Show simple item record

Files in this item

dc.contributor.author De Paula, Mariano es_ES
dc.contributor.author Ávila, Luis O. es_ES
dc.contributor.author sánchez Reinoso, Carlos es_ES
dc.contributor.author Acosta, Gerardo G. es_ES
dc.date.accessioned 2020-05-19T10:04:47Z
dc.date.available 2020-05-19T10:04:47Z
dc.date.issued 2015-10-15
dc.identifier.issn 1697-7912
dc.identifier.uri http://hdl.handle.net/10251/143715
dc.description.abstract [ES] El control de sistemas complejos puede ser realizado descomponiendo la tarea de control en una secuencia de modos de control, o simplemente modos. Cada modo implementa una ley de retroalimentación hasta que se activa una condición de terminación, en respuesta a la ocurrencia de un evento exógeno/endógeno que indica que la ejecución del modo debe finalizar. En este trabajo se presenta una propuesta novedosa para encontrar una política de conmutación óptima para resolver el problema de control optimizando alguna medida de costo/beneficio. Una política óptima implementa un programa de control multimodal óptimo, el cual consiste en un encadenamiento de modos de control. La propuesta realizada incluye el desarrollo y formulación de un algoritmo basado en la idea de la programación dinámica integrando procesos Gaussianos y aprendizaje Bayesiano activo. Mediante el enfoque propuesto es posible realizar un uso eficiente de los datos para mejorar la exploración de las soluciones sobre espacios de estados continuos. Un caso de estudio representativo es abordado para demostrar el desempeño del algoritmo propuesto. es_ES
dc.description.abstract [EN] The control of complex systems can be done decomposing the control task into a sequence of control modes, or modes for short. Each mode implements a parameterized feedback law until a termination condition is activated in response to the occurrence of an exogenous/endogenous event, which indicates that the execution mode must end. This paper presents a novel approach to find an optimal switching policy to solve a control problem by optimizing some measure of cost/benefit. An optimal policy implements an optimal multimodal control program, consisting in a sequence of control modes. The proposal includes the development of an algorithm based on the idea of dynamic programming integrating Gaussian processes and Bayesian active learning. In addition, an efficient use of the data to improve the exploration of the continuous state spaces solutions can be achieved through this approach. A representative case study is discussed and analyzed to demonstrate the performance of the proposed algorithm. es_ES
dc.language Español es_ES
dc.publisher Universitat Politècnica de València es_ES
dc.relation.ispartof Revista Iberoamericana de Automática e Informática industrial es_ES
dc.rights Reconocimiento - No comercial - Sin obra derivada (by-nc-nd) es_ES
dc.subject Multimodal Control es_ES
dc.subject Dynamic Programming es_ES
dc.subject Gaussian Processes es_ES
dc.subject Uncertainty es_ES
dc.subject Policy es_ES
dc.subject Control multimodal es_ES
dc.subject Programación dinámica es_ES
dc.subject Procesos Gaussianos es_ES
dc.subject Incertidumbre es_ES
dc.subject Política es_ES
dc.title Control Multimodal en Entornos Inciertos usando Aprendizaje por Refuerzos y Procesos Gaussianos es_ES
dc.title.alternative Multimodal Control in Uncertain Environments using Reinforcement Learning and Gaussian Processes es_ES
dc.type Artículo es_ES
dc.identifier.doi 10.1016/j.riai.2015.09.004
dc.rights.accessRights Abierto es_ES
dc.description.bibliographicCitation De Paula, M.; Ávila, LO.; Sánchez Reinoso, C.; Acosta, GG. (2015). Control Multimodal en Entornos Inciertos usando Aprendizaje por Refuerzos y Procesos Gaussianos. Revista Iberoamericana de Automática e Informática industrial. 12(4):385-396. https://doi.org/10.1016/j.riai.2015.09.004 es_ES
dc.description.accrualMethod OJS es_ES
dc.relation.publisherversion https://doi.org/10.1016/j.riai.2015.09.004 es_ES
dc.description.upvformatpinicio 385 es_ES
dc.description.upvformatpfin 396 es_ES
dc.type.version info:eu-repo/semantics/publishedVersion es_ES
dc.description.volume 12 es_ES
dc.description.issue 4 es_ES
dc.identifier.eissn 1697-7920
dc.relation.pasarela OJS\9340 es_ES


This item appears in the following Collection(s)

Show simple item record