简介概要

基于主动学习的数据清洗系统

来源期刊:软件工程2018年第9期

论文作者:郭开彦 王洪亚 程炜东

文章页码:37 - 40

关键词:数据清洗;主动学习;确定度;

摘    要:ADC(Active learning based data cleaning system)运用主动学习的方法,在高效的清洗过程中,部分利用用户交互,提升模型清洗能力,提高数据质量。ADC包含学习模块和选择模块。在学习模块中,模块维护一个概率分类器,计算确定度(模型对修复结果的确定程度),利用确定度为数据修复做决策。在选择模块中,模块运行数据选择算法,选择最不确定、最有利于数据质量提升的数据交给用户清洗,再选择高分类贡献度的干净数据补充到训练集中,逐步提升模型的修复能力。系统演示表明,ADC系统只需要很少的用户参与,就可以极大地提高数据质量,从而提升了数据清洗的效率。

详情信息展示

基于主动学习的数据清洗系统

郭开彦,王洪亚,程炜东

东华大学计算机科学与技术学院

摘 要:ADC(Active learning based data cleaning system)运用主动学习的方法,在高效的清洗过程中,部分利用用户交互,提升模型清洗能力,提高数据质量。ADC包含学习模块和选择模块。在学习模块中,模块维护一个概率分类器,计算确定度(模型对修复结果的确定程度),利用确定度为数据修复做决策。在选择模块中,模块运行数据选择算法,选择最不确定、最有利于数据质量提升的数据交给用户清洗,再选择高分类贡献度的干净数据补充到训练集中,逐步提升模型的修复能力。系统演示表明,ADC系统只需要很少的用户参与,就可以极大地提高数据质量,从而提升了数据清洗的效率。

关键词:数据清洗;主动学习;确定度;

<上一页 1 下一页 >

相关论文

  • 暂无!

相关知识点

  • 暂无!

有色金属在线官网  |   会议  |   在线投稿  |   购买纸书  |   科技图书馆

中南大学出版社 技术支持 版权声明   电话:0731-88830515 88830516   传真:0731-88710482   Email:administrator@cnnmol.com

互联网出版许可证:(署)网出证(京)字第342号   京ICP备17050991号-6      京公网安备11010802042557号