简介概要

嵌入重采样技术的C4.5决策树集成分类算法的临床医学预测

来源期刊:控制与决策2021年第6期

论文作者:许召召 申德荣 寇月 聂铁铮

文章页码:1342 - 1350

关键词:不平衡数据;数据重采样;决策树;集成学习;混合采样;稽留流产;

摘    要:决策树作为一种经典的分类算法,因其分类规则简单易懂被广泛应用于医学数据分析中.然而,医学数据的样本不平衡问题使得决策树算法的分类效果降低.数据重采样是目前解决样本不平衡问题的常见方法,通过改变样本分布提升少数类样本的分类性能.现有重采样方法往往独立于后续学习算法,采样后的数据对于弱分类器的构建不一定有效.鉴于此,提出一种基于C4.5算法的混合采样算法.该算法以C4.5算法为迭代采样的评价准则控制过采样和欠采样的迭代过程,同时依据数据的不平衡比动态更新过采样的采样倍率,最终以投票机制组合多个弱分类器预测结果.通过在9组UCI数据集上的对比实验,表明所提出算法的有效性,同时算法也在稽留流产数据上实现了准确的预测.

详情信息展示

嵌入重采样技术的C4.5决策树集成分类算法的临床医学预测

许召召,申德荣,寇月,聂铁铮

东北大学计算机科学与工程学院

摘 要:决策树作为一种经典的分类算法,因其分类规则简单易懂被广泛应用于医学数据分析中.然而,医学数据的样本不平衡问题使得决策树算法的分类效果降低.数据重采样是目前解决样本不平衡问题的常见方法,通过改变样本分布提升少数类样本的分类性能.现有重采样方法往往独立于后续学习算法,采样后的数据对于弱分类器的构建不一定有效.鉴于此,提出一种基于C4.5算法的混合采样算法.该算法以C4.5算法为迭代采样的评价准则控制过采样和欠采样的迭代过程,同时依据数据的不平衡比动态更新过采样的采样倍率,最终以投票机制组合多个弱分类器预测结果.通过在9组UCI数据集上的对比实验,表明所提出算法的有效性,同时算法也在稽留流产数据上实现了准确的预测.

关键词:不平衡数据;数据重采样;决策树;集成学习;混合采样;稽留流产;

<上一页 1 下一页 >

相关论文

  • 暂无!

相关知识点

  • 暂无!

有色金属在线官网  |   会议  |   在线投稿  |   购买纸书  |   科技图书馆

中南大学出版社 技术支持 版权声明   电话:0731-88830515 88830516   传真:0731-88710482   Email:administrator@cnnmol.com

互联网出版许可证:(署)网出证(京)字第342号   京ICP备17050991号-6      京公网安备11010802042557号