Mostrar el registro sencillo del ítem
dc.contributor.author | Díaz, Henry | es_ES |
dc.contributor.author | Armesto, Leopoldo | es_ES |
dc.contributor.author | Sala, Antonio | es_ES |
dc.date.accessioned | 2019-06-17T09:44:37Z | |
dc.date.available | 2019-06-17T09:44:37Z | |
dc.date.issued | 2019-06-12 | |
dc.identifier.issn | 1697-7912 | |
dc.identifier.uri | http://hdl.handle.net/10251/122339 | |
dc.description.abstract | [EN] In this article, we present a methodology for learning data-based approximately optimal controllers, within the context of learning and approximate dynamic programming. There are previous solutions in dynamic programming that use linear programming in discrete state space, but cannot be applied directly to continuous space. The objective of the methodology is to calculate data-based optimal controllers for continuous state space, these controllers are obtained by a lower estimation of the accumulated cost through functional approximators with linear parameterization. This is solved non-iteratively with linear programming, but it requires to provide appropriate conditions for regressor regularization and to introduce a cost of leaving the region with valid data, in order to obtain satisfactory results (avoiding unrestricted or poorly conditioned solutions). | es_ES |
dc.description.abstract | [ES] En este artículo se presenta una metodología para el aprendizaje de controladores óptimos basados en datos, en el contexto de la programación dinámica aproximada. Existen soluciones previas en programación dinámica que utilizan programación lineal en espacios de estado discretos, pero que no se pueden aplicar directamente a espacios continuos. El objetivo de la metodología es calcular controladores óptimos para espacios de estados continuos, basados en datos, obtenidos mediante una estimación inferior del coste acumulado a través de aproximadores funcionales con parametrización lineal. Esto se resuelve de forma no iterativa con programación lineal, pero requiere proporcionar las condiciones adecuadas de regularización de regresores e introducir un coste de abandono de la región con datos válidos, con el fin de obtener resultados satisfactorios (evitando soluciones no acotadas o mal condicionadas). | es_ES |
dc.description.sponsorship | Agradecemos al Ministerio de Economía de España, la Unión Europea DPI2016-81002-R (AEI/FEDER, UE), y al Gobierno de Ecuador (Beca SENESCYT) la financiación recibida para la línea de investigación objeto de este trabajo. | es_ES |
dc.language | Español | es_ES |
dc.publisher | Universitat Politècnica de València | |
dc.relation.ispartof | Revista Iberoamericana de Automática e Informática. | |
dc.rights | Reconocimiento - No comercial - Sin obra derivada (by-nc-nd) | es_ES |
dc.subject | Control inteligente | es_ES |
dc.subject | Programación Dinámica Aproximada | es_ES |
dc.subject | Aprendizaje Neuronal | es_ES |
dc.subject | Control Óptimo | es_ES |
dc.subject | Intelligent Control | es_ES |
dc.subject | Approximate Dynamic Programming | es_ES |
dc.subject | Neural Learning | es_ES |
dc.subject | Optimal Control | es_ES |
dc.title | Metodología de programación dinámica aproximada para control óptimo basada en datos | es_ES |
dc.title.alternative | Approximate Dynamic Programming Methodology for Data-based Optimal Controllers | es_ES |
dc.type | Artículo | es_ES |
dc.date.updated | 2019-06-17T08:10:37Z | |
dc.identifier.doi | 10.4995/riai.2019.10379 | |
dc.relation.projectID | info:eu-repo/grantAgreement/MINECO//DPI2016-81002-R/ES/CONTROL AVANZADO Y APRENDIZAJE DE ROBOTS EN OPERACIONES DE TRANSPORTE/ | es_ES |
dc.rights.accessRights | Abierto | es_ES |
dc.contributor.affiliation | Universitat Politècnica de València. Instituto Universitario de Automática e Informática Industrial - Institut Universitari d'Automàtica i Informàtica Industrial | es_ES |
dc.contributor.affiliation | Universitat Politècnica de València. Escuela Técnica Superior de Ingeniería del Diseño - Escola Tècnica Superior d'Enginyeria del Disseny | es_ES |
dc.contributor.affiliation | Universitat Politècnica de València. Instituto de Diseño para la Fabricación y Producción Automatizada - Institut de Disseny per a la Fabricació i Producció Automatitzada | es_ES |
dc.contributor.affiliation | Universitat Politècnica de València. Escuela Técnica Superior de Ingenieros Industriales - Escola Tècnica Superior d'Enginyers Industrials | es_ES |
dc.contributor.affiliation | Universitat Politècnica de València. Departamento de Ingeniería de Sistemas y Automática - Departament d'Enginyeria de Sistemes i Automàtica | es_ES |
dc.description.bibliographicCitation | Díaz, H.; Armesto, L.; Sala, A. (2019). Metodología de programación dinámica aproximada para control óptimo basada en datos. Revista Iberoamericana de Automática e Informática. 16(3):273-283. https://doi.org/10.4995/riai.2019.10379 | es_ES |
dc.description.accrualMethod | SWORD | es_ES |
dc.relation.publisherversion | https://doi.org/10.4995/riai.2019.10379 | es_ES |
dc.description.upvformatpinicio | 273 | es_ES |
dc.description.upvformatpfin | 283 | es_ES |
dc.type.version | info:eu-repo/semantics/publishedVersion | es_ES |
dc.description.volume | 16 | |
dc.description.issue | 3 | |
dc.identifier.eissn | 1697-7920 | |
dc.contributor.funder | Secretaría de Educación Superior, Ciencia, Tecnología e Innovación, Ecuador | |
dc.contributor.funder | Ministerio de Economía y Competitividad | es_ES |
dc.description.references | Albertos, P., Sala, A., 2006. Multivariable control systems: an engineering approach.Springer. | es_ES |
dc.description.references | Allgower, F., Zheng, A., 2012. Nonlinear model predictive control. Vol. 26.Birkhauser. | es_ES |
dc.description.references | Antos, A., Szepesvári, C., Munos, R., 2008. Learning near-optimal policies with bellman-residual minimization based fitted policy iteration and a single sample path. Machine Learning 71 (1), 89-129. https://doi.org/10.1007/s10994-007-5038-2 | es_ES |
dc.description.references | Ariño, C., Pérez, E., Querol, A., Sala, A., 2014. Model predictive control for discrete fuzzy systems via iterative quadratic programming. In: Fuzzy Systems (FUZZ-IEEE), 2014 IEEE International Conference on. IEEE, pp. 2288- 293. https://doi.org/10.1109/FUZZ-IEEE.2014.6891633 | es_ES |
dc.description.references | Ariño, C., Pérez, E., Sala, A., 2010. Guaranteed cost control analysis and iterative design for constrained takagi-sugeno systems. Engineering Applications of Artificial Intelligence 23 (8), 1420-1427. https://doi.org/10.1016/j.engappai.2010.03.004 | es_ES |
dc.description.references | Armesto, L., Girbés, V., Sala, A., Zima, M.,Smidl, V., 2015. Duality-based non- linear quadratic control: Application to mobile robot trajectory-following. IEEE Transactions on Control Systems Technology 23 (4), 1494-1504. https://doi.org/10.1109/TCST.2014.2377631 | es_ES |
dc.description.references | Busoniu, L., Babuska, R., De Schutter, B., Ernst, D., 2010. Reinforcement learning and dynamic programming using function approximators. Vol. 39. CRCpress. | es_ES |
dc.description.references | Camacho, E. F., Bordons, C., 2010. Control predictivo: Pasado, presente y futuro.Revista Iberoamericana de Automática e Informática Industrial 1 (3),5-28. | es_ES |
dc.description.references | Condon, A., 1992. The complexity of stochastic games. Information and Computation 96 (2), 203 - 224. https://doi.org/10.1016/0890-5401(92)90048-K | es_ES |
dc.description.references | Díaz, H., Armesto, L., Sala, A., 2018. Fitted q-function control methodology based on takagi-sugeno systems. IEEE Transactions on Control Systems Technology, 1-12. https://doi.org/10.1109/TCST.2018.2885689 | es_ES |
dc.description.references | De Farias, D. P., Van Roy, B., 2003. The linear programming approach to approximate dynamic programming. Operations research 51 (6), 850-865. https://doi.org/10.1287/opre.51.6.850.24925 | es_ES |
dc.description.references | Deisenroth, M. P., Neumann, G., Peters, J., et al., 2013. A survey on policy search for robotics. Foundations and Trends in Robotics 2 (1-2), 1-142. https://doi.org/10.1561/2300000021 | es_ES |
dc.description.references | Denardo, E. V., 1970. On linear programming in a markov decision problem. Management Science 16 (5), 281-288. https://doi.org/10.1287/mnsc.16.5.281 | es_ES |
dc.description.references | Duarte-Mermoud, M., Milla, F., 2018. Estabilizador de sistemas de potencia usando control predictivo basado en modelo. Revista Iberoamericana de Automática e Informática industrial 0 (0). https://doi.org/10.4995/riai.2018.10056 | es_ES |
dc.description.references | Fairbank, M., Alonso, E., June 2012. The divergence of reinforcement learning algorithms with value-iteration and function approximation. In: The 2012 International Joint Conference on Neural Networks (IJCNN). pp. 1-8. https://doi.org/10.1109/IJCNN.2012.6252792 | es_ES |
dc.description.references | Gil, R. V., Páez, D. G., 2007. Identificación de sistemas dinámicos utilizando redes neuronales rbf. Revista iberoamericana de automática e informática industrial RIAI 4 (2), 32-42. https://doi.org/10.1016/S1697-7912(07)70207-8 | es_ES |
dc.description.references | Grondman, I., Busoniu, L., Lopes, G. A., Babuska, R., 2012. A survey of actorcritic reinforcement learning: Standard and natural policy gradients. IEEE Transactions on Systems, Man, and Cybernetics, Part C (Applications and Reviews) 42 (6), 1291-1307. https://doi.org/10.1109/TSMCC.2012.2218595 | es_ES |
dc.description.references | Hornik, K., Stinchcombe, M., White, H., 1989. Multilayer feedforward networks are universal approximators. Neural Networks 2 (5), 359 - 366. https://doi.org/10.1016/0893-6080(89)90020-8 | es_ES |
dc.description.references | Kretchmar, R. M., Anderson, C. W., 1997. Comparison of CMACs and radial basis functions for local function approximators in reinforcement learning. In: Neural Networks, 1997., International Conference on. Vol. 2. IEEE, pp. 834-837. | es_ES |
dc.description.references | Latombe, J.-C., 2012. Robot motion planning. Vol. 124. Springer | es_ES |
dc.description.references | Lewis, F. L., Liu, D., 2013. Reinforcement learning and approximate dynamic programming for feedback control. Vol. 17. John Wiley &Sons. https://doi.org/10.1002/9781118453988 | es_ES |
dc.description.references | Lewis, F. L., Vrabie, D., 2009. Reinforcement learning and adaptive dynamic programming for feedback control. Circuits and Systems Magazine, IEEE 9 (3), 32-50. https://doi.org/10.1109/MCAS.2009.933854 | es_ES |
dc.description.references | Manne, A. S., 1960. Linear programming and sequential decisions. Management Science 6 (3), 259-267. https://doi.org/10.1287/mnsc.6.3.259 | es_ES |
dc.description.references | Park, J., Sandberg, I. W., 1991. Universal approximation using radial-basisfunction networks. Neural computation 3 (2), 246-257. https://doi.org/10.1162/neco.1991.3.2.246 | es_ES |
dc.description.references | Rohmer, E., Singh, S. P., Freese, M., 2013. V-rep: A versatile and scalable robot simulation framework. In: Intelligent Robots and Systems (IROS), 2013 IEEE/RSJ International Conference on. IEEE, pp. 1321-1326. https://doi.org/10.1109/IROS.2013.6696520 | es_ES |
dc.description.references | Rubio, F. R., Navas, S. J., Ollero, P., Lemos, J. M., Ortega, M. G., 2018. Control Óptimo aplicado a campos de colectores solares distribuidos. Revista Iberoamericana de Automática e Informática industrial, 15(3), 327-338. doi:https://doi.org/10.4995/riai.2018.8944 | es_ES |
dc.description.references | Santos, M., 2011. Un enfoque aplicado del control inteligente. Revista Iberoamericana de Automática e Informática Industrial RIAI 8 (4), 283-296. https://doi.org/10.1016/j.riai.2011.09.016 | es_ES |
dc.description.references | Si, J., Barto, A. G., Powell, W. B., Wunsch, D., 2004. Handbook of Learning and Approximate Dynamic Programming (IEEE Press Series on Computational Intelligence). Wiley-IEEE Press. https://doi.org/10.1109/9780470544785 | es_ES |
dc.description.references | Sutton, R. S., Barto, A. G., 1998. Reinforcement learning: An introduction. Vol. 1. MIT press Cambridge. | es_ES |
dc.description.references | Yañez-Badillo, H., Tapia-Olvera, R., Aguilar-Mejía, O., Beltran-Carbajal, F., 2017. Control neuronal en línea para regulación y seguimiento de trayectorias de posición para un quadrotor. Revista Iberoamericana de Automática e Informática Industrial RIAI 14 (2), 141-151. https://doi.org/10.1016/j.riai.2017.01.001 | es_ES |
dc.description.references | Ziogou, C., Papadopoulou, S., Georgiadis, M. C., Voutetakis, S., 2013. On-line nonlinear model predictive control of a pem fuel cell system. Journal of Process Control 23 (4), 483-492. https://doi.org/10.1016/j.jprocont.2013.01.011 | es_ES |