带饱和执行器非线性时滞系统的自适应动态规划
黄元君1, 2,林小峰3,王道宏2
(1. 浙江大学 台州研究院,浙江 台州,317600;
2. 嘉兴职业技术学院 机电与汽车分院,浙江 嘉兴,314000;
3. 广西大学 电气工程学院,广西 南宁,530004)
摘要:针对带饱和执行器及状态时滞的一类非线性系统最优控制问题,提出基于迭代自适应动态规划算法的控制方法。用泛函性能指标处理执行器的饱问题,推导出非线性时滞系统对应的哈密顿-雅克比-贝尔曼(HJB)方程。针对其性能指标函数含有状态时滞耦合项和抗饱和函数是非二次型,难以求解HJB方程的问题,采用自适应动态规划算法来获得最优控制。通过收敛性分析证明性能指标可迭代达到最优。对比仿真试验结果验证以上方法的有效和求解的优越性。
关键词:饱和执行器;时滞;自适应动态规划;非线性最优控制
中图分类号:TP183 文献标志码:A 文章编号:1672-7207(2013)05-1881-07
Adapted dynamic programming for nonlinear systems with saturated actuator and time-delay
HUANG Yuanjun1, 2, LING Xiaofeng3, WANG Daohong2
(1. Research Institute of Zhejiang University-Taizhou, Taizhou 317600, China;
2. Department of Mechanical and Automobile Engineering, College of Jiaxing Vocational Technical,Jiaxing 314000, China
3. School of Electrical Engineering, Guangxi University, Nanning 530004, China)
Abstract: An optimal control scheme based on using a new iterative adaptive dynamic programming (ADP) algorithm was presented to solve a class of nonlinear system with saturating actuator and time-delay in state. The Hamilton-Jacobi-Bellman (HJB) equation corresponding to constrained control was formulated using a nonquadratic function. Because the index function includes with state time-delay coupling and anti-saturation function was nonquadratic, and it was difficult to solve the HJB equation, the optimal control was obtained using the adaptive dynamic programming. Convergence analysis was presented to prove that the performance index function can reach the optimum by the iterative. Contrast simulation test results demonstrate the effectiveness of the above method and the superiority of the solution.
Key words: saturating actuators; time delay; adapted dynamic programming; nonlinear system optimal control
在实际控制系统中,执行器带饱和是一个普遍的现象,如果不考虑输入饱和而设计控制器,会导致系统的动态性能降低, 甚至不稳定,因此,寻求更好的设计方法解决执行器饱和问题逐渐受到关注[1-4]。Saberi等[2-3]提出几种处理控制约束的方法。Bitsoris等[4]提出处理状态和控制均受约束的方法。同时,时滞存在于任何的实际系统中,例如传感器传输数据时间延迟、处理器数据处理时间延迟、执行器的执行时间延迟等。多年来,时滞问题的研究一直是重要的课题[5-8]。苏宏业等[5]研究非线性饱和执行器的不确定时滞系统控制。张友等[8]对中立型时滞系进行了进一步研究。但这些均是对时滞系统的统稳定性分析展开讨论。自适应动态规划(ADP)方法在解决非线性最优控制问题上已取得不少成果[9-13]。罗艳红[10]用迭代ADP算法解决执行器带饱和的非线性系统最优控制问题,但未考虑到状态时滞情况。Wei等[11]用迭代ADP算法解决一类时滞离散非线性系统的最优控制问题,但未考虑控制饱和约束情况。然而,同时考虑执行器带饱和及状态时滞是非常有实际意义的,苏宏业等[5-7]对此进行了相关研究。本文作者尝试用迭代自适应动态规划方法来处理带饱和执行器且状态时滞的一类离散时间非线性系统最优控制问题。
1 基础知识
1.1 问题描述
考虑如下离散时间仿射时滞非线性系统:
(1)
给定初始条件,,状态变量,假设系统(1)在包含原点的集合上是利普希茨(Lipschitz)连续可控。控制输入满足, 。 其中:i=1, …, m;为第i个执行器的饱和界;,为满足的常对角矩阵。
针对以上控制带饱和约束且状态时滞的离散时间非线性系统的最优控制问题,设计1个最优状态反馈控制器,即满足使得如下泛函性能指标极小化:
(2)
其中:
1.2 抗饱和的性能指标函数
若式(2)中取作为性能指标函数,对带饱和执行器的控制系统设计得到的最优控制律难以能保证系统性能达到最优,甚至可能导致系统的不稳定。
受文献[9]启发,取如式(3)所示,可确定控制输出的信号在约束范围:
(3)
其中:;
;;。设R为对角正定矩阵,是一个属于和、满足的有界单调递增奇函数,其一阶导数为有界常数M,其函数形如。图1所示为情况下选取的函数很好地逼近饱和执行器。因此,选式(2)形式的性能指标函数以达到抗饱和的目的。
图1 时饱和器模型
Fig.1 Model of saturation when
2 动态规划原理
定义 1 在上关于性能指标(2)的可及控制u(x)定义如下:若u(x)在上连续, u(0)=0, 且有u(x)在上镇定系统(1),并且保证V(x(0), u(x))是有界的。
令V*(x)为最优性能指标函数且满足
(4)
根据Bellman最优化原理, 得到如下哈密顿-雅克尔-贝尔曼(HJB)方程:
(5)
根据最优性原理可求解出式(5)中对应的单步最优控制,推导如下:
(6)
根据式(1)~(2),取 进一步化简式(6)可得:
(7)
因此,求的最优控制表示为
(8)
从式(8)可知:最优控制已得出,它依赖于,其中为HJB方程的解。
注意到性能指标函数(式(2))是带饱和器模型的非二次型泛函,且状态时滞的存在使性能指标函数中还带有与的耦合项,系统(式(1))又是多维非线性的,因此,通过HJB方程(式(5))直接求解最优控制十分困难。本文作者提出基于HJB方程的迭代自适应动态规划(ADP)方法来求解。下面将缩写成。
3 迭代ADP算法
3.1 迭代ADP算法推导
对任意状态迭代ADP算法根据递归迭代更新当前的性能指标函数序列和控制律序列,初始化i=0时,,为初始状态,可得控制律:
(9)
然后,性能指标函数更新如下:
(10)
对于i=1, 2, …,迭代ADP算法可以在式(11)和式(12)间进行迭代:
(11)
(12)
式(9)~(12)为迭代ADP算法形式,类似于HJB方程。不同之处在于HJB方程中求得的最优性能指标和最优控制律是唯一的,而迭代ADP算法中对,,。可证明当时,是的极限,于是,经迭代得到的可以代替,迭代得到控制律可以代替。
3.2 迭代ADP算法的性质
引理1:令,k=0, 1, …为任意的控制律序列,如式(11),如式(12),若 ,那么,,有
(13)
证明:因为是由式(11)中得到的代入式(12)计算出性能指标最小值,而是由任意的控制计算得到的性能指标,显然,,有。
引理2:若系统(式(1))可控,序列如式,则存在上界Y,,。
证明:令为一个镇定和容许的控制律序列,同时,令,通过式(12)更新,其中通过式(14)更新。
(14)
因此,有
(15)
因为,故
(16)
根据式(14),式(16)可以写成:
(17)
因为是镇定容许控制律序列,即,,于是,存在一个上界Y满足:
(18)
根据引理1可得到:
(19)
下面根据引理1和2得到如下主要定理。
定理1:若系统(式(1))可控,性能指标如,其中,那么是一个非下降序列,即有;并且收敛到HJB方程的最优性能指标函数,即当, 。
证明:为方便分析,定义一个新序列如下:
(20)
其中:如式(11)所示;;如式(12)定义。下面用数学归纳法证明。
首先,证明i=0时上式不等式成立,注意到
(21)
因此,对于i=0,有下式成立:
(22)
其次,假设i-1时成立,即对任意的x(k)有成立。那么,对于i,有:
(23)
和
(24)
成立,可得:
(25)
即
(26)
然后,从引理1可得,于是有:
(27)
因为是非降有界序列,所以,当,有。
证毕。
推论1 由于性能指标函数值收敛 ,可得到控制律也将收敛于最优 这等同于式(8)。
3.3 迭代ADP算法步骤
Step 1:给定初始状态和计算精度。
Step 2:设初始迭代 i=0,。
Step 3:根据式(9)计算,通过式(10)计算。
Step 4:对迭代i≥1,根据式(11)计算,通过式(12)计算。
Step 5:若,则执行Step 6;否则,令i=i+1,转到Step 4。
Step 6:停止。
4 实验仿真
4.1 带饱和执行器的时滞系统最优控制
考虑如下一类非线性离散时间系统:
(28)
, ,性能指标函数为:
(29)
其中:执行器饱和界,,状态时滞。
人们对神经网络具有逼近函数特性等[9-12, 14-15]进行了较多研究,本文作者采用神经网络近似函数来实现迭代ADP算法。基于神经网络近似的迭代ADP框架结构如图2所示。从图2可见:评价网络用来近似迭代性能指标函数,动作网络近似控制律,神经网的训练规则用梯度下降法调权,证明和公式推导见文献[9-12]。根据迭代ADP算法,取ε=10-3,选初始向量,学习率,且在每一步迭代中,评价网络和动作网络都内循环100次训练,以保证2个函数近似的误差在10-6内。
图2 基于神经网络近似函数的迭代ADP算法结构图
Fig.2 Structure diagram of iterative ADP algorithm using neural-network approximate
图3所示为性能指标函数迭代过程的仿真结果。当迭代i=50时,满足给定的收敛条件,可以看到符合定理1中单调有界收敛的性质。为验证迭代得到的控制律的控制效果,对进行控制测试,控制的状态轨迹和最优控制轨迹分别如图4和图5所示。从图4和图5可以看到:在Tf=30时状态可被控制到稳定点,且图5中,,这表明控制输出信号保持在执行器约束范围内。
图3 代价函数迭代的收敛过程
Fig.3 Convergence process of cost function
图4 状态轨迹
Fig.4 State trajectory
图5 最优控制轨迹
Fig.5 Optimal control trajectory
4.2 对比实验
未考虑执行器饱和设计时,控制器状态轨迹如图6所示,控制轨迹如图7所示。图7中,输出|u1|≥0.5,|u2|≥0.5,因此,输出的信号经过饱和执行器后会失真。比较图5和图7可知:执行器饱和约束被克服,进而表明本文提出的迭代ADP算法的有效性。
图6 未考虑执行器饱和下的状态轨迹
Fig.6 State trajectory without considering actuators saturation
图7 未考虑执行器饱和下的控制轨迹
Fig.7 Optimal control trajectory without considering actuators saturation
5 结论
(1) 基于动态规划基本理论和自适应迭代方法,提出带饱和执行器且状态时滞的非线性系统的最优控制算法。
(2) 引入一个新型泛函,有效处理执行器饱和问题。对于状态含时滞的非线性系统,根据动态规划原理推导出HJB方程,针对其求解最优控制表达式困难的问题,利用迭代自适应动态规划来逼近HJB方程,找出最优控制律。并给出严格的数学分析和证明。
(3) 通过仿真分析和对比,验证了该算法能有效求解带饱和执行器且状态含时滞的一类非线性系统最优控制问题。
参考文献:
[1] LU Liang, LIN Zhonli. Stabilization of discrete time large scale linear systems under actuator saturation by decentralized feedback[J]. Control Engineering of China, 2009, 16(3): 304-313.
[2] Saberi, A Z, Lin, A Teel. Control of linear systems with saturating actuators[J]. IEEE Transactions on Automatic Control, 1996, 41(3): 368-378.
[3] Sussmann H, E D Sontag, Y Yang A. General result on the stabilization of linear systems using bounded controls[J]. IEEE Trans Automatic Control, 1994, 39(12): 2411-2425.
[4] Bitsoris, G E, Gravalou. Design techniques for the control of discrete-time systems subject to state and control constraints[J]. IEEE Trans Automat Control, 1999, 44(5): 1057-1061.
[5] 苏宏业, 潘红华, 蒋培刚, 等. 一类具有非线性饱和执行器的不确定时滞系统鲁棒控制[J]. 控制与决策, 2000, 15(1): 23-26.
SU Hongye, PAN Honghua, JIANG Peigang, et al. Robust control for a class of uncertain time-delay systems containing nonlinear saturating actuators[J]. Control and Decision, 2000, 15(1): 23-26.
[6] 王永强, 曹永岩, 孙优贤. 受约束时滞系统的抗饱和补偿器增益设计[J]. 自动化学报, 2006, 32(1): 1-6.
WANG Yongqiang, CAO Yongyan, SUN Youxian. Anti- Windup compensator gain design for time-delay-systems with constraints[J]. Acta Automatica Sinica, 2006, 32(1): 1-6
[7] WEI Airong, WANG Yuzhen, ZHAO Keyou. Feedback stabilization and L2-gain analysis of uncertain systems with state delay and actuator saturation[J]. Control Theory and Application , 2007, 24(3): 475-479
[8] 张友, 井元伟, 张嗣瀛. 基于观测器的线性中立时滞系统的H∞控制[J]. 控制与决策, 2004, 19(10): 1137-1141.
ZHANG You, JING Yuanwei, ZHANG Siying. Observer based H∞ control for a class of linear neutral delay systems[J]. Control and Decision, 2004, 19(10): 1137-1141.
[9] Abu-Khalaf M, Lewis F L. Nearly optimal control laws for nonlinear systems with saturating actuators using a neural network HJB approach[J]. Automatica, 2005, 41(5): 779-791.
[10] 罗艳红. 基于神经网络的非线性系统自适应优化控制研究[D]. 沈阳: 东北大学信息科学与工程学院, 2008: 33-59.
LUO Yanhong. Research on adaptive and optimal control for nonlinear systems based on neural networks[D]. Shengyang: Northeastern University. College of Information Science and Engineering, 2008: 33-59.
[11] WEI Qinglai, ZHANG Huangguang, LIU Derong, et al. An optimal control scheme for a class of discrete-time nonlinear systems with time delays using adaptive dynamic programming[J]. Acta Automatica Sinica, 2010, 36(1): 121-129.
[12] ZHANG Huangguang, WEI Qinglai, LUO Yanhong. A novel infinite-time 0ptimal tracking control scheme for a class of discrete-time nonlinear systems via the greedy HDP Iteration algorithm[J]. IEEE Transactions on Systems, Man, and Cybernetics Part B: Cybernetics, 2008, 38(4): 937-940.
[13] 康琦, 汪镭, 安静, 等. 基于近似动态规划的微粒群系统参数优化研究[J]. 自动化学报, 2010, 36(8): 1171-1180.
KANG Qi, WANG Lei, AN Jing, et al. Approximate dynamic programming based parameter optimization of particle swarm systems[J]. Acta Automatica Sinica, 2010, 36(8): 1171-1180.
[14] 张国翊, 胡铮. 改进BP神经网络模型及其稳定性分析[J]. 中南大学学报: 科学自然版, 2011, 42(1): 73-79.
ZHANG Guoyi, HU Zheng. Improved BP neural network model and its stability analysis[J]. Journal of Central South University: Science and Technology, 2011, 42(1): 73-79.
[15] Chen Z, Jagannathan S. Generalized hamilton-jacobi-bellman formulation based neural network control of affine nonlinear discrete-time systems[J]. IEEE Trans Neural Networks, 2008, 19(1): 90-106.
(编辑 邓履翔)
收稿日期:2012-05-29;修回日期:2012-09-12
基金项目:国家自然科学基金重点资助项目(61034002);国家自然科学基金资助项目(60964002)
通信作者:林小峰(1955-),男,广西陆川人,教授,从事智能优化控制研究;电话:13977197839;E-mail: gxulxf@163.com