一种针对交互式学习系统日志数据的轻型化挖掘方法

来源期刊:中南大学学报(自然科学版)2011年第z1期

论文作者:刘锟 邢延 蔡延光

文章页码:755 - 759

关键词:分类;非均衡数据;属性值归约;数据集成;集成学习

Key words:classification; imbalanced data; attribute value aggregation; data reduction; ensemble

摘    要:提出一种针对交互式学习系统产生的日志数据的轻型化挖掘方法。该方法以选择性集成学习为框架,采用C4.5为基本分类器。其轻型化是通过在数据预处理阶段,引入新的基于K均值的属性取值归约算法对部分取值水平丰富的类别属性进行归约,并在模型集成阶段,采用贪心算法对基本分类器进行选择,使最终集成模型得到大幅度精简。上述2项措施在保证模型具有较好预测表现的前提下,大幅度降低了学习代价,提升了系统泛化能力。为了检验方法的有效性,以直接源于教育领域的现实数据——KDD Cup 2010挑战数据集进行检验。结果表明,该方案即便实践于单核PC机(CPU:2.0G;RAM:2.0G)亦具有较高的模型训练效率和较好的泛化能力。

Abstract: A lightweight framework was presented for educational data mining based on selective ensemble, using C4.5 as the basic learning algorithm. The solution introduces a novel algorithm, based on K-mean, to aggregate the categorical attributes having too much value levels. Finally, some experimental results and discussions are provided to validate the proposed approach, using the challenge data set of educational KDD Cup 2010. The results show that the approach has an efficient model training ability and good model generalization even if the algorithm is applied to a single-core PC with a 2.0G CPU and 2.0G RAM.

相关论文

  • 暂无!

相关知识点

  • 暂无!

有色金属在线官网  |   会议  |   在线投稿  |   购买纸书  |   科技图书馆

中南大学出版社 技术支持 版权声明   电话:0731-88830515 88830516   传真:0731-88710482   Email:administrator@cnnmol.com

互联网出版许可证:(署)网出证(京)字第342号   京ICP备17050991号-6      京公网安备11010802042557号