Value Function Estimation in Optimal Control via Takagi-Sugeno Models and Linear Programming

Díaz Iza, Henry Paúl

doi:10.4995/Thesis/10251/139135

Identificarse

Buscar en RiuNet

Listar

Todo RiuNet
Esta colección

Mi cuenta

Acceder

Estadísticas

Ver Estadísticas de uso

Ayuda RiuNet

Admin. UPV

Compartir/Enviar a

Citas

Estadísticas

Value Function Estimation in Optimal Control via Takagi-Sugeno Models and Linear Programming

Mostrar el registro sencillo del ítem

Ficheros en el ítem

Nombre: Díaz - Value Function ...

Tamaño: 5.426Mb

Formato: PDF

Abrir

Nombre: indice.pdf

Tamaño: 188.6Kb

Formato: PDF

Abrir

Nombre: ResumenCastellano.pdf

Tamaño: 107.2Kb

Formato: PDF

Abrir

dc.contributor.advisor	Armesto Ángel, Leopoldo	es_ES
dc.contributor.advisor	Sala Piqueras, Antonio	es_ES
dc.contributor.author	Díaz Iza, Henry Paúl	es_ES
dc.date.accessioned	2020-03-23T07:21:13Z
dc.date.available	2020-03-23T07:21:13Z
dc.date.created	2020-02-20
dc.date.issued	2020-03-23	es_ES
dc.identifier.uri	http://hdl.handle.net/10251/139135
dc.description.abstract	[ES] La presente Tesis emplea técnicas de programación dinámica y aprendizaje por refuerzo para el control de sistemas no lineales en espacios discretos y continuos. Inicialmente se realiza una revisión de los conceptos básicos de programación dinámica y aprendizaje por refuerzo para sistemas con un número finito de estados. Se analiza la extensión de estas técnicas mediante el uso de funciones de aproximación que permiten ampliar su aplicabilidad a sistemas con un gran número de estados o sistemas continuos. Las contribuciones de la Tesis son: -Se presenta una metodología que combina identificación y ajuste de la función Q, que incluye la identificación de un modelo Takagi-Sugeno, el cálculo de controladores subóptimos a partir de desigualdades matriciales lineales y el consiguiente ajuste basado en datos de la función Q a través de una optimización monotónica. -Se propone una metodología para el aprendizaje de controladores utilizando programación dinámica aproximada a través de programación lineal. La metodología hace que ADP-LP funcione en aplicaciones prácticas de control con estados y acciones continuos. La metodología propuesta estima una cota inferior y superior de la función de valor óptima a través de aproximadores funcionales. Se establecen pautas para los datos y la regularización de regresores con el fin de obtener resultados satisfactorios evitando soluciones no acotadas o mal condicionadas. -Se plantea una metodología bajo el enfoque de programación lineal aplicada a programación dinámica aproximada para obtener una mejor aproximación de la función de valor óptima en una determinada región del espacio de estados. La metodología propone aprender gradualmente una política utilizando datos disponibles sólo en la región de exploración. La exploración incrementa progresivamente la región de aprendizaje hasta obtener una política convergida.	es_ES
dc.description.abstract	[CA] La present Tesi empra tècniques de programació dinàmica i aprenentatge per reforç per al control de sistemes no lineals en espais discrets i continus. Inicialment es realitza una revisió dels conceptes bàsics de programació dinàmica i aprenentatge per reforç per a sistemes amb un nombre finit d'estats. S'analitza l'extensió d'aquestes tècniques mitjançant l'ús de funcions d'aproximació que permeten ampliar la seua aplicabilitat a sistemes amb un gran nombre d'estats o sistemes continus. Les contribucions de la Tesi són: -Es presenta una metodologia que combina identificació i ajust de la funció Q, que inclou la identificació d'un model Takagi-Sugeno, el càlcul de controladors subòptims a partir de desigualtats matricials lineals i el consegüent ajust basat en dades de la funció Q a través d'una optimització monotónica. -Es proposa una metodologia per a l'aprenentatge de controladors utilitzant programació dinàmica aproximada a través de programació lineal. La metodologia fa que ADP-LP funcione en aplicacions pràctiques de control amb estats i accions continus. La metodologia proposada estima una cota inferior i superior de la funció de valor òptima a través de aproximadores funcionals. S'estableixen pautes per a les dades i la regularització de regresores amb la finalitat d'obtenir resultats satisfactoris evitant solucions no fitades o mal condicionades. -Es planteja una metodologia sota l'enfocament de programació lineal aplicada a programació dinàmica aproximada per a obtenir una millor aproximació de la funció de valor òptima en una determinada regió de l'espai d'estats. La metodologia proposa aprendre gradualment una política utilitzant dades disponibles només a la regió d'exploració. L'exploració incrementa progressivament la regió d'aprenentatge fins a obtenir una política convergida.	es_ES
dc.description.abstract	[EN] The present Thesis employs dynamic programming and reinforcement learning techniques in order to obtain optimal policies for controlling nonlinear systems with discrete and continuous states and actions. Initially, a review of the basic concepts of dynamic programming and reinforcement learning is carried out for systems with a finite number of states. After that, the extension of these techniques to systems with a large number of states or continuous state systems is analysed using approximation functions. The contributions of the Thesis are: -A combined identification/Q-function fitting methodology, which involves identification of a Takagi-Sugeno model, computation of (sub)optimal controllers from Linear Matrix Inequalities, and the subsequent data-based fitting of Q-function via monotonic optimisation. -A methodology for learning controllers using approximate dynamic programming via linear programming is presented. The methodology makes that ADP-LP approach can work in practical control applications with continuous state and input spaces. The proposed methodology estimates a lower bound and upper bound of the optimal value function through functional approximators. Guidelines are provided for data and regressor regularisation in order to obtain satisfactory results avoiding unbounded or ill-conditioned solutions. -A methodology of approximate dynamic programming via linear programming in order to obtain a better approximation of the optimal value function in a specific region of state space. The methodology proposes to gradually learn a policy using data available only in the exploration region. The exploration progressively increases the learning region until a converged policy is obtained.	es_ES
dc.description.sponsorship	This work was supported by the National Department of Higher Education, Science, Technology and Innovation of Ecuador (SENESCYT), and the Spanish ministry of Economy and European Union, grant DPI2016-81002-R (AEI/FEDER,UE). The author also received the grant for a predoctoral stay, Programa de Becas Iberoamérica- Santander Investigación 2018, of the Santander Bank.
dc.language	Inglés	es_ES
dc.publisher	Universitat Politècnica de València	es_ES
dc.rights	Reserva de todos los derechos	es_ES
dc.subject	Optimal control	es_ES
dc.subject	Linear programming	es_ES
dc.subject	Approximate dynamic programming	es_ES
dc.subject	Control applications	es_ES
dc.subject	Neural networks	es_ES
dc.subject	Adaptive dynamic programming fitted Q function	es_ES
dc.subject	Reinforcement learning	es_ES
dc.subject	Takagi-Sugeno	es_ES
dc.subject	Linear matrix inequality	es_ES
dc.subject	Intelligent control	es_ES
dc.subject.classification	INGENIERIA DE SISTEMAS Y AUTOMATICA	es_ES
dc.title	Value Function Estimation in Optimal Control via Takagi-Sugeno Models and Linear Programming	es_ES
dc.type	Tesis doctoral	es_ES
dc.identifier.doi	10.4995/Thesis/10251/139135	es_ES
dc.relation.projectID	info:eu-repo/grantAgreement/MINECO//DPI2016-81002-R/ES/CONTROL AVANZADO Y APRENDIZAJE DE ROBOTS EN OPERACIONES DE TRANSPORTE/	es_ES
dc.rights.accessRights	Abierto	es_ES
dc.contributor.affiliation	Universitat Politècnica de València. Departamento de Ingeniería de Sistemas y Automática - Departament d'Enginyeria de Sistemes i Automàtica	es_ES
dc.description.bibliographicCitation	Díaz Iza, HP. (2020). Value Function Estimation in Optimal Control via Takagi-Sugeno Models and Linear Programming [Tesis doctoral]. Universitat Politècnica de València. https://doi.org/10.4995/Thesis/10251/139135	es_ES
dc.description.accrualMethod	TESIS	es_ES
dc.type.version	info:eu-repo/semantics/acceptedVersion	es_ES
dc.relation.pasarela	TESIS\11569	es_ES
dc.contributor.funder	Secretaría de Educación Superior, Ciencia, Tecnología e Innovación, Ecuador	es_ES
dc.contributor.funder	Ministerio de Economía y Competitividad	es_ES
dc.contributor.funder	Banco Santander	es_ES

Este ítem aparece en la(s) siguiente(s) colección(ones)

Tesis doctorales [5389]

Mostrar el registro sencillo del ítem

Value Function Estimation in Optimal Control via Takagi-Sugeno Models and Linear Programming

RiuNet: Repositorio Institucional de la Universidad Politécnica de Valencia

Buscar en RiuNet

Listar

Todo RiuNet

Esta colección

Mi cuenta

Estadísticas

Ayuda RiuNet

Admin. UPV

Compartir/Enviar a

Citas

Estadísticas

Value Function Estimation in Optimal Control via Takagi-Sugeno Models and Linear Programming

Ficheros en el ítem

Este ítem aparece en la(s) siguiente(s) colección(ones)