简介概要

模型未知非零和博弈问题的策略迭代算法

来源期刊：东北大学学报(自然科学版)2015年第3期

论文作者：杨明罗艳红王义贺

文章页码：318 - 647

关键词：自适应动态规划;非零和博弈;策略迭代;神经网络;最优控制;

摘要：提出了一种在线积分策略迭代算法,用来求解内部非线性动力模型未知的双人非零和博弈问题.通过在控制策略和干扰策略中引入探测信号,从而避开了系统的模型信息,得到了一个求解非零和博弈的无模型的近似动态规划算法.该算法同步更新值函数、控制策略、扰动策略,并且最终得到收敛的策略权值.在算法实现过程中,使用4个神经网络分别近似两个值函数、控制策略和扰动策略,使用最小二乘法估计神经网络的未知参数.最后仿真结果验证了算法的有效性.

详情信息展示

模型未知非零和博弈问题的策略迭代算法

杨明¹，罗艳红¹，王义贺²

1. 东北大学信息科学与工程学院2. 国网辽宁省电力有限公司经济技术研究院

摘要：提出了一种在线积分策略迭代算法,用来求解内部非线性动力模型未知的双人非零和博弈问题.通过在控制策略和干扰策略中引入探测信号,从而避开了系统的模型信息,得到了一个求解非零和博弈的无模型的近似动态规划算法.该算法同步更新值函数、控制策略、扰动策略,并且最终得到收敛的策略权值.在算法实现过程中,使用4个神经网络分别近似两个值函数、控制策略和扰动策略,使用最小二乘法估计神经网络的未知参数.最后仿真结果验证了算法的有效性.

关键词：自适应动态规划;非零和博弈;策略迭代;神经网络;最优控制;

<上一页 1 下一页 >

相关论文

基于评价网络近似误差的自适应动态规划优化控制

非线性离散时间系统带ε误差限的自适应动态规划

基于策略迭代的连续时间系统的随机线性二次最优控制

带饱和执行器非线性时滞系统的自适应动态规划

基于动态规划的机器人运动规划最优控制

基于数据的启发式动态规划在分解炉温度控制中的应用

基于强化学习的JLQ模型的直接自适应最优控制

基于数据的智能电网电能自适应优化调控

模态跳变概率可控的Markov跳变线性系统的优化

模糊神经网络补偿的伺服系统二次型最优控制

相关知识点

神经网络在冶金工业中的应用

预测沉积坯体质量的神经网络技术

冶金生产过程中基于神经网络的规则提取流程

基于神经网络的铝电解槽模糊专家系统的研究

基于神经网络的尾矿微晶玻璃板材配方的优选

神经网络的基本模型

神经网络的概念和研究历史

神经网络直接反演

BP神经网络的基本结构

BP神经网络模型

有色金属在线官网 | 会议 | 在线投稿 | 购买纸书 | 科技图书馆

中南大学出版社技术支持版权声明电话：0731-88830515 88830516 传真：0731-88710482 Email:administrator@cnnmol.com

互联网出版许可证：（署）网出证（京）字第342号京ICP备17050991号-6 京公网安备11010802042557号