简介概要

基于强化学习的JLQ模型的直接自适应最优控制

来源期刊：控制与决策2008年第12期

论文作者：徐琰恺陈曦

文章页码：1359 - 2734

关键词：Markov跳变线性系统;策略迭代;Q函数;直接自适应最优控制;

摘要：研究离散时间跳变线性二次(JLQ)模型的直接自适应最优控制问题.将强化学习的理论和方法应用于JLQ模型,设计基于Q函数的策略迭代算法,以优化系统性能.在系统参数以及模态跳变概率未知的情况下,Q函数对应的参数矩阵,可通过观察给定策略下系统行为,应用递归最小二乘算法在线估计.基于此参数矩阵,可构造出新的策略使得系统性能更优.该算法可收敛到最优策略.

详情信息展示

基于强化学习的JLQ模型的直接自适应最优控制

徐琰恺^1,2，陈曦^1,2

1. 清华大学自动化系2. 清华大学智能与网络化系统研究中心

摘要：研究离散时间跳变线性二次(JLQ)模型的直接自适应最优控制问题.将强化学习的理论和方法应用于JLQ模型,设计基于Q函数的策略迭代算法,以优化系统性能.在系统参数以及模态跳变概率未知的情况下,Q函数对应的参数矩阵,可通过观察给定策略下系统行为,应用递归最小二乘算法在线估计.基于此参数矩阵,可构造出新的策略使得系统性能更优.该算法可收敛到最优策略.

关键词：Markov跳变线性系统;策略迭代;Q函数;直接自适应最优控制;

<上一页 1 下一页 >

相关论文

模态跳变概率可控的Markov跳变线性系统的优化

模型未知非零和博弈问题的策略迭代算法

基于策略迭代的连续时间系统的随机线性二次最优控制

基于状态聚类的非参数化近似广义策略迭代增强学习算法

一类分层非结构化P2P系统的随机切换模型

基于灵敏度分析的含比例型手续费的投资组合优化

机会式频谱接入优化问题的研究

Markov控制过程在紧致行动集上的迭代优化算法

机会式频谱接入问题基于事件的优化方法

智能电网弹性响应时间业务需求的接入控制

相关知识点

铝熔体的泡沫陶瓷过滤

有色金属在线官网 | 会议 | 在线投稿 | 购买纸书 | 科技图书馆

中南大学出版社技术支持版权声明电话：0731-88830515 88830516 传真：0731-88710482 Email:administrator@cnnmol.com

互联网出版许可证：（署）网出证（京）字第342号京ICP备17050991号-6 京公网安备11010802042557号