Metodología de programación dinámica aproximada para control óptimo basada en datos

Díaz, Henry; Armesto, Leopoldo; Sala, Antonio

doi:10.4995/riai.2019.10379

Identificarse

Buscar en RiuNet

Listar

Todo RiuNet
Esta colección

Mi cuenta

Acceder

Estadísticas

Ver Estadísticas de uso

Ayuda RiuNet

Admin. UPV

Compartir/Enviar a

Citas

Estadísticas

Metodología de programación dinámica aproximada para control óptimo basada en datos

Mostrar el registro sencillo del ítem

Ficheros en el ítem

Nombre: 10379-47071-1-PB.pdf

Tamaño: 1.526Mb

Formato: PDF

Abrir

dc.contributor.author	Díaz, Henry	es_ES
dc.contributor.author	Armesto, Leopoldo	es_ES
dc.contributor.author	Sala, Antonio	es_ES
dc.date.accessioned	2019-06-17T09:44:37Z
dc.date.available	2019-06-17T09:44:37Z
dc.date.issued	2019-06-12
dc.identifier.issn	1697-7912
dc.identifier.uri	http://hdl.handle.net/10251/122339
dc.description.abstract	[EN] In this article, we present a methodology for learning data-based approximately optimal controllers, within the context of learning and approximate dynamic programming. There are previous solutions in dynamic programming that use linear programming in discrete state space, but cannot be applied directly to continuous space. The objective of the methodology is to calculate data-based optimal controllers for continuous state space, these controllers are obtained by a lower estimation of the accumulated cost through functional approximators with linear parameterization. This is solved non-iteratively with linear programming, but it requires to provide appropriate conditions for regressor regularization and to introduce a cost of leaving the region with valid data, in order to obtain satisfactory results (avoiding unrestricted or poorly conditioned solutions).	es_ES
dc.description.abstract	[ES] En este artículo se presenta una metodología para el aprendizaje de controladores óptimos basados en datos, en el contexto de la programación dinámica aproximada. Existen soluciones previas en programación dinámica que utilizan programación lineal en espacios de estado discretos, pero que no se pueden aplicar directamente a espacios continuos. El objetivo de la metodología es calcular controladores óptimos para espacios de estados continuos, basados en datos, obtenidos mediante una estimación inferior del coste acumulado a través de aproximadores funcionales con parametrización lineal. Esto se resuelve de forma no iterativa con programación lineal, pero requiere proporcionar las condiciones adecuadas de regularización de regresores e introducir un coste de abandono de la región con datos válidos, con el fin de obtener resultados satisfactorios (evitando soluciones no acotadas o mal condicionadas).	es_ES
dc.description.sponsorship	Agradecemos al Ministerio de Economía de España, la Unión Europea DPI2016-81002-R (AEI/FEDER, UE), y al Gobierno de Ecuador (Beca SENESCYT) la financiación recibida para la línea de investigación objeto de este trabajo.	es_ES
dc.language	Español	es_ES
dc.publisher	Universitat Politècnica de València
dc.relation.ispartof	Revista Iberoamericana de Automática e Informática.
dc.rights	Reconocimiento - No comercial - Sin obra derivada (by-nc-nd)	es_ES
dc.subject	Control inteligente	es_ES
dc.subject	Programación Dinámica Aproximada	es_ES
dc.subject	Aprendizaje Neuronal	es_ES
dc.subject	Control Óptimo	es_ES
dc.subject	Intelligent Control	es_ES
dc.subject	Approximate Dynamic Programming	es_ES
dc.subject	Neural Learning	es_ES
dc.subject	Optimal Control	es_ES
dc.title	Metodología de programación dinámica aproximada para control óptimo basada en datos	es_ES
dc.title.alternative	Approximate Dynamic Programming Methodology for Data-based Optimal Controllers	es_ES
dc.type	Artículo	es_ES
dc.date.updated	2019-06-17T08:10:37Z
dc.identifier.doi	10.4995/riai.2019.10379
dc.relation.projectID	info:eu-repo/grantAgreement/MINECO//DPI2016-81002-R/ES/CONTROL AVANZADO Y APRENDIZAJE DE ROBOTS EN OPERACIONES DE TRANSPORTE/	es_ES
dc.rights.accessRights	Abierto	es_ES
dc.contributor.affiliation	Universitat Politècnica de València. Instituto Universitario de Automática e Informática Industrial - Institut Universitari d'Automàtica i Informàtica Industrial	es_ES
dc.contributor.affiliation	Universitat Politècnica de València. Escuela Técnica Superior de Ingeniería del Diseño - Escola Tècnica Superior d'Enginyeria del Disseny	es_ES
dc.contributor.affiliation	Universitat Politècnica de València. Instituto de Diseño para la Fabricación y Producción Automatizada - Institut de Disseny per a la Fabricació i Producció Automatitzada	es_ES
dc.contributor.affiliation	Universitat Politècnica de València. Escuela Técnica Superior de Ingenieros Industriales - Escola Tècnica Superior d'Enginyers Industrials	es_ES
dc.contributor.affiliation	Universitat Politècnica de València. Departamento de Ingeniería de Sistemas y Automática - Departament d'Enginyeria de Sistemes i Automàtica	es_ES
dc.description.bibliographicCitation	Díaz, H.; Armesto, L.; Sala, A. (2019). Metodología de programación dinámica aproximada para control óptimo basada en datos. Revista Iberoamericana de Automática e Informática. 16(3):273-283. https://doi.org/10.4995/riai.2019.10379	es_ES
dc.description.accrualMethod	SWORD	es_ES
dc.relation.publisherversion	https://doi.org/10.4995/riai.2019.10379	es_ES
dc.description.upvformatpinicio	273	es_ES
dc.description.upvformatpfin	283	es_ES
dc.type.version	info:eu-repo/semantics/publishedVersion	es_ES
dc.description.volume	16
dc.description.issue	3
dc.identifier.eissn	1697-7920
dc.contributor.funder	Secretaría de Educación Superior, Ciencia, Tecnología e Innovación, Ecuador
dc.contributor.funder	Ministerio de Economía y Competitividad	es_ES
dc.description.references	Albertos, P., Sala, A., 2006. Multivariable control systems: an engineering approach.Springer.	es_ES
dc.description.references	Allgower, F., Zheng, A., 2012. Nonlinear model predictive control. Vol. 26.Birkhauser.	es_ES
dc.description.references	Antos, A., Szepesvári, C., Munos, R., 2008. Learning near-optimal policies with bellman-residual minimization based fitted policy iteration and a single sample path. Machine Learning 71 (1), 89-129. https://doi.org/10.1007/s10994-007-5038-2	es_ES
dc.description.references	Ariño, C., Pérez, E., Querol, A., Sala, A., 2014. Model predictive control for discrete fuzzy systems via iterative quadratic programming. In: Fuzzy Systems (FUZZ-IEEE), 2014 IEEE International Conference on. IEEE, pp. 2288- 293. https://doi.org/10.1109/FUZZ-IEEE.2014.6891633	es_ES
dc.description.references	Ariño, C., Pérez, E., Sala, A., 2010. Guaranteed cost control analysis and iterative design for constrained takagi-sugeno systems. Engineering Applications of Artiﬁcial Intelligence 23 (8), 1420-1427. https://doi.org/10.1016/j.engappai.2010.03.004	es_ES
dc.description.references	Armesto, L., Girbés, V., Sala, A., Zima, M.,Smidl, V., 2015. Duality-based non- linear quadratic control: Application to mobile robot trajectory-following. IEEE Transactions on Control Systems Technology 23 (4), 1494-1504. https://doi.org/10.1109/TCST.2014.2377631	es_ES
dc.description.references	Busoniu, L., Babuska, R., De Schutter, B., Ernst, D., 2010. Reinforcement learning and dynamic programming using function approximators. Vol. 39. CRCpress.	es_ES
dc.description.references	Camacho, E. F., Bordons, C., 2010. Control predictivo: Pasado, presente y futuro.Revista Iberoamericana de Automática e Informática Industrial 1 (3),5-28.	es_ES
dc.description.references	Condon, A., 1992. The complexity of stochastic games. Information and Computation 96 (2), 203 - 224. https://doi.org/10.1016/0890-5401(92)90048-K	es_ES
dc.description.references	Díaz, H., Armesto, L., Sala, A., 2018. Fitted q-function control methodology based on takagi-sugeno systems. IEEE Transactions on Control Systems Technology, 1-12. https://doi.org/10.1109/TCST.2018.2885689	es_ES
dc.description.references	De Farias, D. P., Van Roy, B., 2003. The linear programming approach to approximate dynamic programming. Operations research 51 (6), 850-865. https://doi.org/10.1287/opre.51.6.850.24925	es_ES
dc.description.references	Deisenroth, M. P., Neumann, G., Peters, J., et al., 2013. A survey on policy search for robotics. Foundations and Trends in Robotics 2 (1-2), 1-142. https://doi.org/10.1561/2300000021	es_ES
dc.description.references	Denardo, E. V., 1970. On linear programming in a markov decision problem. Management Science 16 (5), 281-288. https://doi.org/10.1287/mnsc.16.5.281	es_ES
dc.description.references	Duarte-Mermoud, M., Milla, F., 2018. Estabilizador de sistemas de potencia usando control predictivo basado en modelo. Revista Iberoamericana de Automática e Informática industrial 0 (0). https://doi.org/10.4995/riai.2018.10056	es_ES
dc.description.references	Fairbank, M., Alonso, E., June 2012. The divergence of reinforcement learning algorithms with value-iteration and function approximation. In: The 2012 International Joint Conference on Neural Networks (IJCNN). pp. 1-8. https://doi.org/10.1109/IJCNN.2012.6252792	es_ES
dc.description.references	Gil, R. V., Páez, D. G., 2007. Identiﬁcación de sistemas dinámicos utilizando redes neuronales rbf. Revista iberoamericana de automática e informática industrial RIAI 4 (2), 32-42. https://doi.org/10.1016/S1697-7912(07)70207-8	es_ES
dc.description.references	Grondman, I., Busoniu, L., Lopes, G. A., Babuska, R., 2012. A survey of actorcritic reinforcement learning: Standard and natural policy gradients. IEEE Transactions on Systems, Man, and Cybernetics, Part C (Applications and Reviews) 42 (6), 1291-1307. https://doi.org/10.1109/TSMCC.2012.2218595	es_ES
dc.description.references	Hornik, K., Stinchcombe, M., White, H., 1989. Multilayer feedforward networks are universal approximators. Neural Networks 2 (5), 359 - 366. https://doi.org/10.1016/0893-6080(89)90020-8	es_ES
dc.description.references	Kretchmar, R. M., Anderson, C. W., 1997. Comparison of CMACs and radial basis functions for local function approximators in reinforcement learning. In: Neural Networks, 1997., International Conference on. Vol. 2. IEEE, pp. 834-837.	es_ES
dc.description.references	Latombe, J.-C., 2012. Robot motion planning. Vol. 124. Springer	es_ES
dc.description.references	Lewis, F. L., Liu, D., 2013. Reinforcement learning and approximate dynamic programming for feedback control. Vol. 17. John Wiley &Sons. https://doi.org/10.1002/9781118453988	es_ES
dc.description.references	Lewis, F. L., Vrabie, D., 2009. Reinforcement learning and adaptive dynamic programming for feedback control. Circuits and Systems Magazine, IEEE 9 (3), 32-50. https://doi.org/10.1109/MCAS.2009.933854	es_ES
dc.description.references	Manne, A. S., 1960. Linear programming and sequential decisions. Management Science 6 (3), 259-267. https://doi.org/10.1287/mnsc.6.3.259	es_ES
dc.description.references	Park, J., Sandberg, I. W., 1991. Universal approximation using radial-basisfunction networks. Neural computation 3 (2), 246-257. https://doi.org/10.1162/neco.1991.3.2.246	es_ES
dc.description.references	Rohmer, E., Singh, S. P., Freese, M., 2013. V-rep: A versatile and scalable robot simulation framework. In: Intelligent Robots and Systems (IROS), 2013 IEEE/RSJ International Conference on. IEEE, pp. 1321-1326. https://doi.org/10.1109/IROS.2013.6696520	es_ES
dc.description.references	Rubio, F. R., Navas, S. J., Ollero, P., Lemos, J. M., Ortega, M. G., 2018. Control Óptimo aplicado a campos de colectores solares distribuidos. Revista Iberoamericana de Automática e Informática industrial, 15(3), 327-338. doi:https://doi.org/10.4995/riai.2018.8944	es_ES
dc.description.references	Santos, M., 2011. Un enfoque aplicado del control inteligente. Revista Iberoamericana de Automática e Informática Industrial RIAI 8 (4), 283-296. https://doi.org/10.1016/j.riai.2011.09.016	es_ES
dc.description.references	Si, J., Barto, A. G., Powell, W. B., Wunsch, D., 2004. Handbook of Learning and Approximate Dynamic Programming (IEEE Press Series on Computational Intelligence). Wiley-IEEE Press. https://doi.org/10.1109/9780470544785	es_ES
dc.description.references	Sutton, R. S., Barto, A. G., 1998. Reinforcement learning: An introduction. Vol. 1. MIT press Cambridge.	es_ES
dc.description.references	Yañez-Badillo, H., Tapia-Olvera, R., Aguilar-Mejía, O., Beltran-Carbajal, F., 2017. Control neuronal en línea para regulación y seguimiento de trayectorias de posición para un quadrotor. Revista Iberoamericana de Automática e Informática Industrial RIAI 14 (2), 141-151. https://doi.org/10.1016/j.riai.2017.01.001	es_ES
dc.description.references	Ziogou, C., Papadopoulou, S., Georgiadis, M. C., Voutetakis, S., 2013. On-line nonlinear model predictive control of a pem fuel cell system. Journal of Process Control 23 (4), 483-492. https://doi.org/10.1016/j.jprocont.2013.01.011	es_ES

Este ítem aparece en la(s) siguiente(s) colección(ones)

Mostrar el registro sencillo del ítem

Metodología de programación dinámica aproximada para control óptimo basada en datos

RiuNet: Repositorio Institucional de la Universidad Politécnica de Valencia

Buscar en RiuNet

Listar

Todo RiuNet

Esta colección

Mi cuenta

Estadísticas

Ayuda RiuNet

Admin. UPV

Compartir/Enviar a

Citas

Estadísticas

Metodología de programación dinámica aproximada para control óptimo basada en datos

Ficheros en el ítem

Este ítem aparece en la(s) siguiente(s) colección(ones)

Ítems relacionados