简介概要

基于Spark的大规模文本KNN并行分类算法

来源期刊：湖南科技大学学报自然科学版2020年第1期

论文作者：李宏志李苋兰赵生慧

文章页码：90 - 97

关键词：KNN;并行化;文本分类;Spark;RDD;MapReduce;

摘要：在使用KNN算法进行大规模文本分类,需要处理频繁的迭代运算,针对现有Hadoop平台迭代运算效率较低的问题,本文提出一种基于Spark平台的并行优化KNN算法.主要从3个方面对算法进行优化,首先,对于训练数据集通过剪枝算法控制有效数据的规模,从而减少迭代运算的次数;其次,针对高维数据集采用ID3算法利用信息熵进行属性降维,减少文本相似度的运算量;最后,使用Spark并行计算平台,引入内存计算最大限度地减少了迭代运算的I/O次数,提高处理速度.通过实验,与常用的KNN算法相比,基于Spark的KNN文本并行分类算法在加速比、扩展性等主要性能指标上表现较优,能够较好地满足大规模文本分类的需求.

详情信息展示

基于Spark的大规模文本KNN并行分类算法

李宏志^1,2，李苋兰²，赵生慧¹

1. 滁州学院信息学院2. 福建师范大学光电与信息工程学院

关键词：KNN;并行化;文本分类;Spark;RDD;MapReduce;

简介概要

详情信息展示

基于Spark的大规模文本KNN并行分类算法

相关论文

相关知识点