文本聚类集成问题中的谱算法
来源期刊:控制与决策2009年第8期
论文作者:徐森 卢志茂 顾国昌
文章页码:1277 - 1280
关键词:聚类分析;聚类集成;谱聚类;文本聚类;矩阵近似;
摘 要:聚类集成中的关键问题是如何根据不同的聚类成员组合为更好的聚类结果.引入谱聚类算法解决该问题,提出了基于相似度矩阵的谱算法(SMSA),但该算法高昂的计算代价使其不适合大规模文本集.进一步研究了谱聚类算法的特性,对超边的相似度矩阵进行谱分析,提出了基于超边相似度矩阵的元聚类算法(HSM-MCLA).真实文本数据集的实验结果表明:SMSA和HSM-MCLA比其他基于图划分的集成算法更优越;HSM-MCLA可获得与SMSA相当的结果,而计算需求却明显低于SMSA.
徐森1,卢志茂2,顾国昌1
1. 哈尔滨工程大学计算机科学与技术学院2. 哈尔滨工程大学信息与通信工程学院
摘 要:聚类集成中的关键问题是如何根据不同的聚类成员组合为更好的聚类结果.引入谱聚类算法解决该问题,提出了基于相似度矩阵的谱算法(SMSA),但该算法高昂的计算代价使其不适合大规模文本集.进一步研究了谱聚类算法的特性,对超边的相似度矩阵进行谱分析,提出了基于超边相似度矩阵的元聚类算法(HSM-MCLA).真实文本数据集的实验结果表明:SMSA和HSM-MCLA比其他基于图划分的集成算法更优越;HSM-MCLA可获得与SMSA相当的结果,而计算需求却明显低于SMSA.
关键词:聚类分析;聚类集成;谱聚类;文本聚类;矩阵近似;