简介概要

基于MapReduce的大规模文本聚类并行化

来源期刊：工程科学学报2014年第10期

论文作者：武森冯小东杨杰张晓楠

文章页码：1411 - 1419

关键词：云计算;文本;聚类;相似度;

摘要：建立快速有效的针对大规模文本数据的聚类分析方法是当前数据挖掘研究和应用领域中的一个热点问题.为了同时保证聚类效果和提高聚类效率,提出基于"互为最小相似度文本对"搜索的文本聚类算法及分布式并行计算模型.首先利用向量空间模型提出一种文本相似度计算方法;其次,基于"互为最小相似度文本对"搜索选择二分簇中心,提出通过一次划分实现簇质心寻优的二分K-means聚类算法;最后,基于MapReduce框架设计面向云计算应用的大规模文本并行聚类模型.在Hadoop平台上运用真实文本数据的实验表明:提出的聚类算法与原始二分K-means相比,在获得相当聚类效果的同时,具有明显效率优势;并行聚类模型在不同数据规模和计算节点数目上具有良好的扩展性.

详情信息展示

基于MapReduce的大规模文本聚类并行化

武森，冯小东，杨杰，张晓楠

北京科技大学东凌经济管理学院

摘要：建立快速有效的针对大规模文本数据的聚类分析方法是当前数据挖掘研究和应用领域中的一个热点问题.为了同时保证聚类效果和提高聚类效率,提出基于"互为最小相似度文本对"搜索的文本聚类算法及分布式并行计算模型.首先利用向量空间模型提出一种文本相似度计算方法;其次,基于"互为最小相似度文本对"搜索选择二分簇中心,提出通过一次划分实现簇质心寻优的二分K-means聚类算法;最后,基于MapReduce框架设计面向云计算应用的大规模文本并行聚类模型.在Hadoop平台上运用真实文本数据的实验表明:提出的聚类算法与原始二分K-means相比,在获得相当聚类效果的同时,具有明显效率优势;并行聚类模型在不同数据规模和计算节点数目上具有良好的扩展性.

关键词：云计算;文本;聚类;相似度;

<上一页 1 下一页 >

相关论文

基于聚类中心文本串联的并行MKNN文本分类

文本聚类集成问题中的谱算法

基于非结构化数据挖掘结构模型的Web文本聚类算法

基于色彩聚类的自然场景文本检测

基于Squeezer算法的文本数据流聚类

一种基于黑洞算法的模糊C均值文本聚类方法

几种基于统计的词聚类方法比较

一种基于特征库投影的文本分类算法

基于模糊C-means的多视角聚类算法

基于Word2Vec和LDA主题模型的Web服务聚类方法

相关知识点

最大最小聚类法

旋挖钻机的聚类模块化分析

聚类分析的计算方法与步骤

基于改进FCM的矿物浮选泡沫图像聚类

聚类分析基础

聚类的准则函数

各类矿石及相关地质体微量元素聚类分析

RBF神经网络学习中的聚类算法

聚类分析数据变换

有色金属在线官网 | 会议 | 在线投稿 | 购买纸书 | 科技图书馆

中南大学出版社技术支持版权声明电话：0731-88830515 88830516 传真：0731-88710482 Email:administrator@cnnmol.com

互联网出版许可证：（署）网出证（京）字第342号京ICP备17050991号-6 京公网安备11010802042557号