基于Spark的火电大数据挖掘方法的研究
来源期刊:控制工程2018年第12期
论文作者:宋鸣程 贾立 叶灵芝
文章页码:2158 - 2165
关键词:火电大数据;Spark;大数据挖掘;关联规则;运行优化;
摘 要:传统数据挖掘在处理火电大数据时,普遍存在计算瓶颈。针对此问题,提出了基于Spark的火电大数据挖掘方法。该方法根据机组实际运行特点,对火电大数据进行稳态工况判定和基于外部约束的工况划分,并在Spark计算框架下,引入了分布式的理念,使用基于Spark的K-means算法对火电大数据进行离散化,并使用基于Spark的FP-growth算法对火电大数据进行关联规则分析,挖掘出各工况的强关联规则,进而得到符合优化目标的参数所达到过的最优值。该方法应用到安徽某电厂300 MW机组,对该机组某月10天的运行数据进行挖掘。仿真结果表明,该方法能够有效地对火电大数据进行数据挖掘,且在数据量大时,该方法与传统的数据挖掘相比计算效率具有明显优势。
宋鸣程,贾立,叶灵芝
上海大学机电与自动化工程学院上海市电站自动化技术重点实验室
摘 要:传统数据挖掘在处理火电大数据时,普遍存在计算瓶颈。针对此问题,提出了基于Spark的火电大数据挖掘方法。该方法根据机组实际运行特点,对火电大数据进行稳态工况判定和基于外部约束的工况划分,并在Spark计算框架下,引入了分布式的理念,使用基于Spark的K-means算法对火电大数据进行离散化,并使用基于Spark的FP-growth算法对火电大数据进行关联规则分析,挖掘出各工况的强关联规则,进而得到符合优化目标的参数所达到过的最优值。该方法应用到安徽某电厂300 MW机组,对该机组某月10天的运行数据进行挖掘。仿真结果表明,该方法能够有效地对火电大数据进行数据挖掘,且在数据量大时,该方法与传统的数据挖掘相比计算效率具有明显优势。
关键词:火电大数据;Spark;大数据挖掘;关联规则;运行优化;