基于聚类中心文本串联的并行MKNN文本分类
来源期刊:控制工程2018年第6期
论文作者:董博 王雪
文章页码:1012 - 1018
关键词:聚类中心;文本中心;Mapreduce并行;分类;串联合并;
摘 要:传统KNN查询是一种稳定性和准确率性能均较好的算法,但是在样本规模过大时,算法的计算效率受到影响较大,对此提出一种基于聚类中心文本串联的并行(Mapreduce for KNN,MKNN)文本分类算法。首先,基于文本聚类方式,对相似度较高的文档进行串联合并,并以合并文档取代原有独立文档进行KNN查询过程,可有效实现文本相似度指标计算量降维;其次,针对上述文本串联及KNN查询过程,构建基于Mapreduce算法的并行化KNN执行过程,实现算法计算效率的快速提升;最后,通过与同类单线程算法在文本分类精度和算法计算效率实验上对比显示,在保证足够精度前提下,所提算法分类速度可得到有效提升。
董博1,王雪2
1. 辽宁大学创新创业学院2. 辽宁大学信息化中心
摘 要:传统KNN查询是一种稳定性和准确率性能均较好的算法,但是在样本规模过大时,算法的计算效率受到影响较大,对此提出一种基于聚类中心文本串联的并行(Mapreduce for KNN,MKNN)文本分类算法。首先,基于文本聚类方式,对相似度较高的文档进行串联合并,并以合并文档取代原有独立文档进行KNN查询过程,可有效实现文本相似度指标计算量降维;其次,针对上述文本串联及KNN查询过程,构建基于Mapreduce算法的并行化KNN执行过程,实现算法计算效率的快速提升;最后,通过与同类单线程算法在文本分类精度和算法计算效率实验上对比显示,在保证足够精度前提下,所提算法分类速度可得到有效提升。
关键词:聚类中心;文本中心;Mapreduce并行;分类;串联合并;