基于数据的启发式动态规划在分解炉
温度控制中的应用
林小峰,孙欣
(广西大学 电气工程学院,广西 南宁,530004)
摘要:利用从水泥生产现场采集的分解炉数据,对分解炉用神经网络进行了数据建模;将建立的数据模型用于自适应动态规划迭代算法中,形成基于数据的启发式动态规划(HDP)算法,并训练分解炉控制器。控制结果表明:建立的数据模型能很好地反映分解炉的状况,实现分解炉温度的优化控制,使分解炉中的燃烧、换热及碳酸盐分解过程得到优化。
关键词:分解炉;神经网络;优化控制;启发式动态规划;自适应动态规划
中图分类号:TP273 文献标志码:A 文章编号:1672-7207(2011)S1-0979-06
Applications of data-based heuristic dynamic programming temperature control of cement decomposition furnace
LIN Xiao-feng, SUN Xin
(School of Electrical Engineering, Guangxi University, Nanning 530004, China)
Abstract: The data of decomposition furnace was collected from cement production site, the data was used to model the model data of decomposition furnace with neural network. Then, the data model was used in iteration adaptive dynamic programming, the data-base iteration heuristic dynamic programming was formed. At the same time, the decomposition furnace controller was trained. The controlled result indicates that the constructed model has a good performance for decomposition furnace, and the temperature optimal control of decomposition furnace is achieved. The burning, heat exchange and decomposition process of Portland in decomposition furnace are optimized.
Key words: decomposition furnace; neural network; optimal control; heuristic dynamic programming; adaptive dynamic programming
新型干法水泥生产方法是以悬浮预热和预分解技术为核心,把现代科学技术广泛应用于水泥生产全过程,使水泥生产具有高效、优质、节能、清洁、符合环境保护要求和工艺装备大型化、生产控制自动化、实行科学管理现代化的水泥生产方法。新型干法水泥生产技术是在预热器和回转窑之间增设分解炉,而分解炉的温度控制是影响水泥质量和生产稳定的关键因素,分解炉温度控制过程具有非线性、不确定以及时滞等复杂系统特征,很难通过机理建立其精确的数学模型[1]。分解炉每天都在产生并储存大量的生产过程数据,存储的数据隐含着控制系统和设备运行等的信息,然而,这些数据基本都是闲置着,对于分解炉温度的控制所依靠的大多是生产工人的经验,并没有真正采用实际生产数据对该过程进行控制。因此,针对难于建立控制系统精确数学模型状况,如何有效利用生产过程所产生的大量数据,实现对水泥分解炉温度控制系统的控制,已成为生产实际迫切需要解决的问题。
自适应动态规划是融合动态规划、神经网络和强化学习的方法,通过近似Bellman动态规划方程中的代价函数(cost-to-go),从而避免“维数灾”问题,它是解决大规模非线性系统优化控制问题切实可行的理论和方法。近年来,自适应动态规划理论已经渗透到了多个科学领域,如通讯技术[2]、飞行器控制[3]和电力系统控制[4]等领域,并取得丰硕的成果。自适应动态规划在基于数据的优化控制方面也取得了一定的进展,Si等[5]提出一种在线强化学习(On-line reinforcement learning)方法; Lee等[6]提出了一种采用局部加权平均函数逼近器和Q-Learning 强化学习的ADP算法。本文作者将基于数据的控制与自适应动态规划相结合,建立基于数据的启发式动态规划(HDP)算法,不必建立分解炉精确的数学模型,而是利用实际生产数据建模,并设计分解炉控制系统控制器,实现对分解炉的温度优化控制。
1 分解炉及其工艺介绍
分解炉生产工艺如图1所示,生料粉经过旋风筒旋风预热器在旋风筒中与热气流充分混合,进行热交换,然后进入分解炉,并与从分解炉上部送入的煤粉混合燃烧,剧烈地进行分解反应。生料经过分解炉分解为熟料后进入到回转窑[7]。分解炉是预分解窑系统的核心部分,它承担了预分解窑系统中煤粉燃烧、气固换热以及碳酸盐分解任务。窑炉系统总燃料的60%供给分解炉,为碳酸盐分解提供热量。碳酸盐的有效分解需要一个相对稳定的温度,温度过高或者过低将会造成设备损坏和水泥质量下降。因此,保持分解炉内的温度在工艺要求的温度范围,对提高生料分解率和稳定熟料质量尤为重要。
图1 分解炉工艺流程图
Fig.1 Flow-chart of decomposing furnace
2 基于数据的分解炉模型
影响分解炉温度的因素很多,对生产工艺和现场采样数据的分析以及操作人员经验总结[8],可以总结出影响分解炉温度的主要参数为:喂煤量、3次风量和生料量。以上3个变量的实测数据从水泥厂生产现场采集(从现有的DCS系统中导出Excel形式的数据),采集的数据将作为分解炉模型的训练数据样本。
处理训练样本数据时,根据工艺要求和操作经验,总结出被采集变量的操作范围,然后采用最大值最小值限幅的方法,初步剔除一部分不在此范围内的数据。用处理好后的数据的5 000组作为训练样本,其中100组作为检验拟合能力的样本。首先需要先将数据进行归一化处理,化到(-1~1)之间的数值;然后,通过图2所示的数据建模方式采用神经网络法建立基于数据的分解炉模型。
图2 基于数据的分解炉建模结构图
Fig.2 Decomposition furnace modeling system based on data
图2中,控制量数据u1,u2和u3分别表示输入的控制量3次风量、喂煤量和生料用量,状态量数据T代表的实际控制对象的输出温度,Tm是模型输出的温度,方框内就是本研究所建立的模型。所建立的模型是在输入数据后调整3层BP神经网络训练加权系数(也就是权值)而得到的基于数据的神经网络模型。具体的做法是利用从水泥厂生产现场采集的3次风量、喂煤量、生料用量以及温度4个变量的实测数据,将数据输入到神经网络中,网络通过学习,不断调整权值,与此同时通过调整学习率,建立起基于数据的分解炉模型。这里隐藏层的激活函数取S型传输函数,输出层的激活函数取线性传输函数。图3所示为所建立的模型拟合能力测试图。从图3可以看出:所建立的模型能较好地模拟分解炉实际生产的过程。
3 基于数据的HDP原理
3.1 离散时间HJB方程
首先考虑如下离散时间仿射非线性系统:
(1)
这里xRn,f(x)Rn,g(x)Rn×m和输入uRm。假设方程(1)在ΩRn上稳定。期望找到u(xk),使得代价函数最小,代价函数通过以下式子给出:
(2)
这里为给定的效用函数。效用函数可以代表系统能量,外部输入能量等各种具有实际物理意义的指标函数,其具体形式可以根据不同实际工业生产情况进行具体的分析和定义。式(2)中QRn×n和RRm×m是正定的,当x≠0,且x=0时,xTQx=0。因此,控制器必须稳定且保证方程(2)是有界的,才能保证ux为容许控制(Admissible controls)[9]。
定义 容许控制:如果u(x)在Ω上连续,u(0)=0,u使得式(1)在Ω上稳定,并且x0Ω,使得V(x0)有界,则可以定义一个在Ω上相对于方程(2)的容许控制u(x)。方程(2)可写为:
(3)
根据贝尔曼最优原理。Hamilton-Jacobi-Bellman (HJB)方程可以写成:
(4)
最优控制动作u*满足一阶必要条件,即求方程(4)右边部分对于u的梯度,即
(5)
因此,可以得到:
(6)
将式(6)代入式(4)可以得到离散时间的HJB方程:
(7)
下面节将应用迭代HDP[10]算法来求解HJB方程(7)的值函数V*。
3.2 基于数据HDP算法的实现
基于数据HDP算法由3个神经网络构建的动作网络、模型网络和评价网络组成,如图4中的算法部分所示。
图3 基于数据的分解炉模型拟合能力测试曲线
Fig.3 Fitting ability test curves of data-base decomposition furnace model
图4 基于数据的分解炉温度控制系统结构图
Fig.4 System chart of decomposition furnace temperature control based on data
(1)模型网络。模型网络用于模拟被控对象,预测被控对象的下一状态。图4中的模型网络是通过数据建模的方法建立起来的分解炉模型,如图2所示。
(2)评价网络。评价网络是整个算法的核心部分,是用来近似性能指标函数,其作用是对动作网络的动作进行评价。
(3)动作网络。动作网络类似于一般控制器,是用来近似控制策略。它会根据评价网络的评估调整控制策略。动作网络的目标函数由式(6)给出。
一般情况下,HJB方程(7)中的V(xk)为状态变量xk的强非线性函数,而且因其需要用到性能指标函数在下一时刻的值V(xk+1)来求解V(xk),因此,性能指标函数V(xk)通常是未知的。在系统的状态方程未知的情况下,性能指标函数V(xk)更是难以确定。这使得基于动态规划HJB方程直接求解变得几乎不可能。因此,提出一种基于数据的值函数迭代算法获得优化控制器。引入迭代步数i(也称为迭代指标)(i=0, 1, 2, …)。首先从初始性能指标函数V0(x)=0开始迭代,每一步迭代,动作网络都会输出控制量ui(xk),控制量ui(xk)经过建立的数据模型得出状态数据xk+1,再通过评价网络得到代价Vi(xk+1),对于i=0, 1, 2, …,定义
(8)
可以看出,迭代性能指标函数Vi(xk)从给定的初始性能指标函数V0(x)开始迭代,随着ui(xk)的更新而不断更新,形成基于数据的HDP算法。如果采用神经网络构建系统运行特征同时逼近性能指标函数则ui(xk)可求,那么Vi+1(xk)可求。因此,通过值函数迭代法(8)迭代的求解优化控制可行。
4 仿真研究与结果
将训练好的分解炉模型作为基于数据HDP算法中的模型网络,基于数据的分解炉温度控制系统结构图如图4所示。因为生产水泥的设备在开机后有一个预热的过程,因此,先将分解炉的温度人工地控制到850 ℃。同时根据工艺要求和操作人员的经验,将目标温度设成900 ℃。图5所示为温度控制效果比较图。从图5可以看出:经过较小的时间波动,分解炉的温度被控制到900 ℃,分解炉中的煤粉燃烧、气固换热以及碳酸盐的分解过程得到了优化。图6~8分别显示了3个控制量的变化情况,从图中可以看出3次风量、耗煤量和生料量都经过较小的时间波动都达到了相应的优化控制量。
把基于数据的HDP算法的分解炉温度控制过程与单BP神经网络分解炉温度控制过程做比较。从2种算法温度控制比较图(见图5)可以看出:基于数据的HDP算法,无论在收敛时间上还是在控制过程中波动情况上都体现出了良好的控制效果。从图6~8中3个控制量的控制过程比较图可以看出:基于数据的HDP算法3个控制量的收敛时间和控制过程的波动情况都明显比单BP神经网络算法的好。
图5 温度控制效果比较图
Fig.5 Comparison chart of temperature control effect
图6 3次风量控制效果比较图
Fig.6 Comparison chart of three air volume control effects
图7 喂煤量控制效果比较图
Fig.7 Comparison chart of coal volume control effect
图8 生料量控制效果比较图
Fig.8 Comparison chart of raw material control effect
5 结论
针对难以建立水泥分解炉数学模型的状况,充分利用了分解炉数据进行数据建模,通过测试所建立模型的拟合能力,表明该模型能很好地反映水泥分解炉过程;然后将建立的数据模型用于自适应动态规划值迭代算法中,形成基于数据的启发式动态规划(HDP)算法,通过该算法训练出分解炉温度控制系统的优化控制器,实现对水泥分解炉温度的优化控制。控制仿真结果表明:基于数据的HDP的水泥分解炉温度控 制可以使得分解炉中的燃烧、换热及碳酸盐分解过程都得到优化,从而降低能耗和提高水泥质量。
参考文献:
[1] 熊蕴远, 万春红, 张东宁. 新型干法水泥分解炉温度控制的ANFIS辨识与仿真[J]. 电气技术, 2009(11): 14-20.
XIONG Yun-yuan, WAN Chun-hong, ZHANG Dong-ning. Identification and simulation of ANFIS model for new dry-process cement production precalciner temperature control[J]. Electrical Engineering, 2009(11): 14-20.
[2] LIU De-rong, ZHANG Yi, ZHANG Hua-guang. A self-learning call admission control scheme for CDMA cellular networks[J]. IEEE Transactions on Neural Networks, 2005, 16(5): 1219-1228.
[3] Enns R, Si J. Helicopter trimming and tracking control using direct neural dynamic programming[J]. IEEE Transactions on Neural Networks, 2003, 14(4): 929-939.
[4] LIU Wen-xin, Venayagamoorthy G K, Donald C, Wunsch Ⅱ. A heuristic dynamic programming based power system stabilizer for a turbogenerator in a single-machine power system[J]. IEEE Transactions on Industry Applications, 2005, 41(5): 1377-1385.
[5] Si Jennie, WANG Yu-Tsung. On-line learning control by association and reinforcement[J]. IEEE Transactions on Neural Networks, 2001, 12(2): 264-276.
[6] Lee J M, Lee J H. Approximate dynamic programming-based approaches for input-out data-driven control of nonlinear processes[J]. Automatica, 2005, 41(7): 1281-1288.
[7] 郭璟, 袁铸钢, 申涛. 基于水泥分解炉工况分析的优化控制[J]. 济南大学学报: 自然科学版, 2008, 22(2): 124-127.
GUO Jing, YUAN Zhu-gang, SHEN Tao. Optimization control simulation based on the behaviour identification of cement decomposition furnace[J]. Journal of University of Jinan: Science and Technology, 2008, 22(2): 124-127.
[8] 袁铸钢, 狄小峰, 申涛. 模糊控制及其在水泥分解炉的应用[J]. 济南大学学报: 自然科学版, 2006, 20(1): 58-61.
YUAN Zhu-gang, DI Xiao-feng, SHEN Tao. Fuzzy control and it s application in cement decompose stove[J]. Journal of University of Jinan: Science and Technology, 2006, 20(1): 58-61.
[9] Abu-khalaf M, Lewis F L. Nearly optimal control laws for nonlinear systems with saturating actuators using a neural network hjb approach[J]. Automatica, 2005, 41(5): 779-791.
[10] Tamimi A, Lewis F L, Abu-Khalaf M. Discrete-time nonlinear hjb solution using approximate dynamic programming: Convergence proof[J]. IEEE Transactions on Systems, 2008, 38(4): 943-949.
(编辑 李艳红)
收稿日期:2011-04-15;修回日期:2011-06-15
基金项目:国家自然科学基金资助项目(60964002);国家自然科学基金重点资助项目(61034002);广西自然科学基金资助项目(2011jjc70001)
通信作者:孙欣(1983-),男,广西柳州人,硕士研究生,从事智能优化研究;电话:15289685487; E-mail: sun-xing-xing@163.com