基于类-属性关联度的启发式离散化技术
来源期刊:控制与决策2011年第10期
论文作者:周世昊 倪衍森
文章页码:1504 - 1510
关键词:离散化;数据挖掘;自顶向下;变精度粗糙集;不一致;
摘 要:连续属性离散化在数据挖掘、机器学习和人工智能等领域起着重要的作用.鉴于此,提出一种基于类-属性关联度的启发式离散化技术.该技术定义了一个新的离散化标准,根据数据本身的特性选择最佳断点,克服了目前最先进自顶向下离散化方法存在的缺陷.基于粗糙集理论中变精度粗糙集模型,提出一种新的不一致衡量标准,能够有效地控制离散化所产生的信息丢失,允许数据存在适当的分类错误度.实验结果和统计性分析表明,所提出的技术显著地提高了J4.8决策树和SVM分类器的学习精度.
周世昊1,2,倪衍森1
1. 淡江大学管理科学所2. 醒吾技术学院
摘 要:连续属性离散化在数据挖掘、机器学习和人工智能等领域起着重要的作用.鉴于此,提出一种基于类-属性关联度的启发式离散化技术.该技术定义了一个新的离散化标准,根据数据本身的特性选择最佳断点,克服了目前最先进自顶向下离散化方法存在的缺陷.基于粗糙集理论中变精度粗糙集模型,提出一种新的不一致衡量标准,能够有效地控制离散化所产生的信息丢失,允许数据存在适当的分类错误度.实验结果和统计性分析表明,所提出的技术显著地提高了J4.8决策树和SVM分类器的学习精度.
关键词:离散化;数据挖掘;自顶向下;变精度粗糙集;不一致;