应用数据挖掘技术的空调建模
王政,韩宁
(北京林业大学 工学院,北京,100083)
摘要:针对VAV空调系统控制参数多,各参数之间耦合性强,模型不易建立的问题,通过对VAV空调系统采集的数据进行预处理,应用数据挖掘中关联分析方法提取各参数背后隐藏的有用知识,获取各参数与AHU送风温度之间的关联度,寻求VAV空调系统AHU建模所需的参数,并利用神经网络建立模型,验证建模方法的合理性。实验结果证明了这种建模方法的有效性。
关键词:变风量空调;数据挖掘;关联分析;人工神经网络;Weka
中图分类号:TP301.6 文献标志码:A 文章编号:1672-7207(2011)S1-0800-05
Air conditioning modeling by neural network using data mining
WANG Zheng, HAN Ning
(School of Technology, Beijing Forestry University, Beijing 100083, China)
Abstract: VAV air conditioning system has characteristic of lagging, inertia, slow time-varying and a lot of links and parameters coupling, which cause the modeling complex. It is economical value to simulate all system for reducing the energy consumed by air-condition. The relationships between the supply air temperature and the other variables of air conditioning system were analyzed using association analysis. In addition, an air handling unit (AHU) model was made by neural network with the parameter concluded by data mining in order to verify it. The study provides new idea and technical support for AHU modeling of VAV air conditioning system and provides the foundation of control-simulation in computer for artificer.
Key words: VAV air conditioning system; data mining; association analysis; neural network modeling; Weka
随着城市现代化的加速发展以及人民生活水平的提高,中央空调的应用越来越广泛。同时,随着全球低碳经济的兴起,建筑节能正逐步引起人们的重视。HVAC系统不但要满足基本的冷热负荷要求,而且要满足人们对空气品质的要求,同时还要使系统达到环保与节能的要求[1]。VAV空调系统控制复杂,控制参数较多,单纯利用神经网络建模,计算量大,训练速度慢[2]。经过作者验证,将所有相关参量均做为输入建立的神经网络模型稳定性和泛化能力较差。本文针对某大型办公写字楼采集的空调运行数据,采用数据挖掘工具(Weka)对采集数据进行关联分析,进而利用MATLAB神经网络工具箱建立该空调系统空气处理单元的模型并进行仿真,为更好地设计优化空调控制算法奠定基础。
1 数据挖掘预处理
高质量的决策依赖于高质量的数据[3],在构建空调系统空气处理单元数据仓库过程中,使用的数据是经过预处理的历史数据,即去掉坏的数据,消除数据之间的矛盾,利用时间段进行筛选等,能够提高规则的可靠性。
1.1 数据获取
本研究中的数据采集自北京市西城区某高级办公楼,地上16层,地下5层,采用Andover变风量(VAV)空调自控系统,新风机组与空调机组相互独立运行,每层设空调机组与新风机组各1台。本空调系统为控送风系统,空调机组以风道静压值与设定静压值为主参数,调节变频器的输出频率进而调节送风量;以送风温度与设定温度为主参数,调节水阀开度进而调节送风温度,实现房间温度的调节[4]。在VAV末端,以室内温度、设定温度值(墙控器面板设定)和动压值为主参数,调节风阀的开度。冬季热源采用城市热网集中供热,热交换站设在底下一层,空调用热媒为60~50 ℃热水[4],流量为315 m3/h。本实验使用的数据由空调控制系统上位机自动采集,每5 s采集一组数据,包括:变频器输出频率、风阀开度、回风温度、风道静压值、设定送风温度、设定压力、水阀开度、送风温度、热交换器一次供/回水压力、热交换器二次供/回水压力、AHU供/回水温度、热交换器二次供水温度、室外湿度、室外温度,共计17个变量。
1.2 数据筛选
滤除不希望要的数据,同时将变量数目降维。在关联挖掘中,本文只选择从早上8点到晚上10点采集的数据作为有效数据,其他时间段认为空气处理单元未运行。另外,鉴于每5 s采集一组会造成数据冗余严重,故将其简化为1 min采集一组数据,共计841组数据。前文中所述的17个变量中,对AHU运行有关联的有水阀开度、送风温度、回风温度、AHU供/回水温度、热交换器二次供/回水压力、室外湿度、室外温度、设定送风温度共10个变量,故为简化数据,在关联分析中,以上述10个变量为基础。
1.3 数据转换
将数据转换成适合于挖掘的形式。为提高数据挖掘过程的精度和速度,要对数据作规范化、平滑和泛化处理[5]。另外,关联规则挖掘只能在分类数据上进行[3],故还需要对数据的连续属性作离散化处理。本文中,利用Descretize离散化过滤器将数据分箱,其中箱数为3。
2 关联分析
2.1 关联分析及Apriori算法
关联分析是数据挖掘的主要技术之一,也称为购物篮分析(market basket analysis)[6]。所谓关联规则,就是寻找描述数据库中数据项(属性、变量)之间隐藏的(潜在的)相互关系,进而找到大量数据之间未知的依赖关系。关联规则一般通过支持度和置信度来测量[7]。设一个含有n个元组的关系R,其属性A1, A2, …,Am,设属性集I={Ai1,Ai2,…,Aik}和J={Aj1,Aj2,…,Ajk}为2个属性值的集合。支持度S(Support)是指R中包含A和B的事物数与总的事物数的比值;置信度C (Confidence)是指R中同时包含A和B的事物数与只包含A的事物数的比值。如果满足Support(I=>J)= P(I∪J)>min_Support,且Confidence(I=>J)=P(J|I)> min_Confidence,则称I=>J是一个强关联规则。
本文利用数据挖掘中的关联分析Apriori算法查找并描述空气处理单元(AHU)送风温度与各个变量参数(水阀开度、AHU供/回水温度等)之间的关联。Apriori是一种广度优先算法,它利用了频繁项集的向下封闭性(即频繁项集的非空子集仍是频繁项集),通过对数据库的多次扫描发现所有的频繁项目集[8]。第1次扫描中,Apriori算法计算每条记录中所有单个项目的支持度,生成所有长度为1的频繁项目集。在后续的第k次扫描中,首先以前一次中发现的所有频繁项目集为基础,生成所有新的候选项目集(即潜在的频繁项目集);然后扫描数据库,计算这些候选项目集的支持度,最后确定候选项目集中哪一些成为频繁项目集;重复上述过程直至不再发现新的频繁项目集。
2.2 Weka简介
Weka的全名是怀卡托智能分析环境(Waikato Environment for Knowledge Analysis),是由新西兰怀卡托大学开发的一款免费的、非商业化(与之对应的是SPSS公司商业数据挖掘产品—Clementine)的、基于JAVA环境下开源的机器学习及数据挖掘软件[9],遵循于GNU General Public License,是现今最完备的数据挖掘工具之一。
2.3 分析结果
本文中,利用前文中所述的10个变量对AHU采集数据进行关联分析,取早上8点至晚上10点采集的数据作为有效数据,共计841组。利用Apriori算法,设定最小支持度为20%,最小置信度为70%,共得到规则165条,经过剪枝后,得到与AHU送风温度相关联的规则共11条,如下:
Best rules found:
12. setsongfengT='All' 229songfengT= '(32.946299-35.153707]' 229 conf:(1)
63. shuifa='(-inf-0.599653]' 191 songfengT= '(32.946299-35.153707]' 186 conf:(0.97)
76. AHUercigongshuiT='(34.429632-37.40926]' 279songfengT='(32.946299-35.153707]' 269 conf:(0.96)
82. huifengT='(-inf-23.587037]' 171songfengT= '(32.946299-35.153707]'' 160 conf:(0.94)
104. jingya='(83-166]' 262shuifa= '(-inf-0.599653]' 232 conf:(0.75)
149. AHUercigongshuiT='(34.429632-37.40926]' outH='(-inf-0.182917]' 247shuifa='(-inf-0.599653]' songfengT='(32.946299-35.153707]' 182 conf:(0.74)
152. outH='(-inf-0.182917]' outT='(-1.42037- 0.525926]' 265songfengT='(32.946299-35.153707]' 192 conf:(0.72)
153. shuifa='(-inf-0.599653]' outH='(-inf-0.182917]' outT='(-1.42037-0.525926]' 265songfengT= '(32.946299-35.153707]' 192 conf:(0.72)
154. outH='(-inf-0.182917]' outT='(-1.42037- 0.525926]' 265shuifa='(-inf-0.599653]' songfengT='(32.946299-35.153707]' 192 conf:(0.72)
159. shuifa='(-inf-0.599653]' ercigongshuiP='(-inf- 9.070833]' 327songfengT='(32.946299-35.153707]' 235 conf:(0.72)
161. ercigongshuiP='(-inf-9.070833]' 339 songfengT='(32.946299-35.153707]' 242 conf:(0.71)
从以上关联分析中可以看出:若取75%以上的置信度作为恒量关联度的标准,则设定送风温度、水阀开度、AHU供水温度和回风温度与空调空气处理单元送风温度为强关联,而与室外温、湿度等为弱关联。因此,在对该空调系统空气处理单元建模时,采用设定送风温度、水阀开度、AHU供水温度和回风温度作为输入变量,送风温度作为输出变量,而不考虑其他变量对送风温度的影响。
3 神经网络空调系统建模
BP神经网络具有很强的非线性映射能力,根据Kolmogorov定理,一个3层的BP神经网络能够对任意非线性函数实现逼近[10]。本研究应用Matlab神经网络工具箱建立空调系统空气处理单元模型,对比仿真输出的送风温度与实际送风温度之间的误差,验证上述关联分析的准确性。在本研究中,将关联分析得到的强关联变量,即设定送风温度、水阀开度、AHU供水温度和回风温度作为神经网络的输入变量,AHU送风温度作为输出变量,构建AHU模型结构如图1所示。
图1 空气处理单元(AHU)神经网络模型结构
Fig.1 Neural network structure of AHU model
此神经网络模型有4个输入参数:水阀开度、AHU供水温度、回风温度和设定送风温度;第1层由7个神经元构成,传输函数为tansig;输出层由1个神经元构成,传输函数为logsig;输出参数为AHU送风温度。采用2010年1月7日早上8点至晚上10点共计841组采集数据(1 min采集1组)作为神经网络的训练样本,训练函数为自适应lrBP的梯度递减函数trainda,训练目标误差为0.01,学习率为0.1。
由于网络输入的4个参数具有不同的物理意义和量纲,同时样本中可能存在奇异样本数据,故需要对其做归一化处理,使所有数据均在0~1范围内变化。在本研究中,将输入的数据变换为[0, 1]区间的值采用以下算法:
式中:xi为输入数据;xmin为数据变化范围内的最小值;xmax为数据变化范围内的最大值。对于神经网络的输出,需要进行反归一化处理。
为验证训练所得神经网络的泛化能力及稳定性,选取2010年2月5日早上10点至下午4点共计341组数据(去除部分缺省数据)做为检验样本,将神经网络的输出温度与实测温度进行对比,结果如图2所示。
由图2可以看出,实测温度在38~41 ℃之间变化,神经网络输出对实测值的跟随性良好,大部分情况下误差小于±0.5 ℃,只有少数误差较大,但最大误差在±1 ℃之内。考虑到在训练样本与检验样本的选择之间时间跨度较大,实验具有比较高的可信度,利用本方法得到的神经网络泛化能力较强。
为进一步验证该方法在后续建模中的可靠性,利用gensim函数生成simulink的BP神经网络仿真模块,将输入做为workspace模块依次输入,如图3所示。
取2010年1月4日早上7时至下午13时的323组的数据作为检验样本。由于检验样本的部分时间在训练样本之外,这对神经网络的泛化能力要求更高。如图4所示,实测送风温度在27~50 ℃之间变化较为剧烈,但神经网络的输出对实测值的跟随效果依然比较好,模型的准确性和稳定性很高。
图2 神经网络模型输出温度与实测温度对比
Fig.2 Correlation between neural network output and actual supply air temperature
图3 Simulink模型结构
Fig.3 Structure of simulink module
图4 仿真模型输出曲线
Fig.4 Curve of scope output
4 结论
利用数据挖掘技术对空调系统采集数据进行降维处理,寻求强关联变量,进而利用神经网络建模,验证关联分析的准确性。利用关联挖掘降维,然后建模,不仅有效地解决了直接建模泛化能力差的问题,而且降低了神经网络的训练时间和计算量,这是多参量建模中的一个新思路。当然,该方法的普适性还需要进一步研究。将模型应用于空调控制算法并且进一步验证模型的准确性是下一步研究的重点。
参考文献:
[1] 封小梅. 中央空调系统优化配置研究[D]. 广州: 华南理工大学, 2010.
FENG Xiao-mei. Study on optimization of allocation for central air-conditioning system[D]. Guangzhou: South China University of Technology, 2010.
[2] 曹志峰, 余波, 王永强, 等. 基于MATLAB神经网络的变风量空调控制的仿真[J]. 制冷与空调, 2007, 2: 114-117.
CAO Zhi-feng, YU Bo, WANG Yong-qiang, et al. The modeling and simulation of VAV air-conditions system basing on artificial neural network of MATLAB[J]. Refrigeration and Air-condition, 2007, 2: 114-117.
[3] Soman K P, Diwakar S, Ajay V. 数据挖掘基础教程[M]. 范明, 牛常勇, 译. 北京: 机械工业出版社, 2009: 1.
Soman K P, Diwakar S, Ajay V. Insight into data mining theory and practice[M]. FANG Ming, NIU Chang-yong, transl. Beijing: China Machine Press, 2009: 1.
[4] 王志. 安德沃(ANDOVER). 空调自控系统节能控制研究[D]. 西安: 西安建筑科技大学, 2007.
WANG Zhi. Study on energy saving control for Andover air-condition automatic control system[D]. Xi’an: Xi’an University of Architecture and Technology, 2007.
[5] 冯雪梅, 卢来洁, 马爱军, 等. 数据挖掘分类方法在冲击谱试验中的应用[J]. 航天器环境工程, 2008, 25(1): 41-43.
FENG Xue-mei, LU Lai-jie, MA Ai-jun, et al. Application of classification analysis of data mining in shock spectrum test[J]. Spacecraft Environment Engineering, 2008, 25(1): 41-43.
[6] 谈恒贵, 王文杰, 李游华. 数据挖掘分类算法综述[J]. 微型机与应用, 2005(2): 4-9.
TAN Heng-gui, WANG Wen-jie, LI You-hua. Review of classification algorithm with data mining[J]. Microcomputer and Its Applications, 2005(2): 4-9.
[7] 王斌. 浅析数据挖掘的主要方法和研究方向[J]. 计算机仿真, 2005, 10: 1-3.
WANG Bin. Discussion on main methods and researches of data mining[J]. Computer Simulation, 2005, 10: 1-3.
[8] 赵欢, 谭华. Apriori算法在语音合成应用中的一种改进[J]. 湖南大学学报: 自然科学版, 2004, 31(5): 94-98.
ZHAO Huan, TAN Hua. An improvement to Apriori algorithm in the application of speech synthesis[J]. Journal of Hunan University: Natural Science, 2004, 31(5): 94-98.
[9] 孙元军, 郑新奇, 常伟倩. 基于Weka的城市建设用地结构特征挖掘研究[J]. 计算机工程与应用, 2008, 44(27): 231-235.
SUN Yuan-jun, ZHENG Xin-qi, CHANG Wei-qian. Analyzing structure of urban construction land based on Weka[J]. Computer Engineering and Applications, 2008, 44(27): 231-235.
[10] 罗玉春, 都洪基, 崔芳芳. 基于Matlab的BP神经网络结构与函数逼近能力的关系分析[J]. 现代电子技术, 2007, 30(24): 88-90.
LUO Yu-chun, DU Hong-ji, CUI Fang-fang. Analysis of relation between the structure of BP feed-forward neural network and precision of function proximate based on Matlab[J]. Modern Electronics Technoque, 2007, 30(24): 88-90.
[11] Leung T W, Lok C W. An automatic data acquisition system for on-line training of artificial neural network-based air handling unit modeling[J]. Journal of the International Measurement Confederation, 2005, 37: 39-46.
(编辑 袁赛前)
收稿日期:2011-04-15;修回日期:2011-06-15
通信作者:韩宁(1956-),女,北京人,教授,从事计算机控制网络研究;电话:010-62337736;E-mail: hn217@bjfu.edu.cn