收藏本站
收藏 | 投稿 | 论文排版

SCoS:基于Spark的并行谱聚类算法设计与实现

朱光辉  黄圣彬  袁春风  黄宜华  
【摘要】:谱聚类是一种比传统聚类算法更为高效的算法,其建立在谱图理论基础上,并将聚类问题转化为图的最优划分问题.与传统k-means算法不同的是,谱聚类算法不仅能够在任意形状的样本空间上实现聚类,而且可以收敛至全局最优解.然而,谱聚类算法的计算开销较大,不仅需要计算任意两个样本之间的相似性,而且还需要计算Laplacian矩阵的特征向量.因此,在大规模数据场景下,谱聚类算法存在计算耗时过长甚至无法完成计算的问题.为了解决谱聚类算法在大规模数据场景下的计算性能问题,使得谱聚类算法能够应用在大数据集上,文中基于Apache Spark分布式并行计算框架研究并实现了大规模并行谱聚类算法SCoS,对算法流程中的每个计算步骤进行了并行化.具体的,SCoS主要实现了相似度矩阵构建与稀疏化过程的并行化、Laplacian矩阵构建与正规化过程的并行化、正规化Laplacian矩阵特征向量计算的并行化以及k-means聚类的并行化.为了降低谱聚类算法中大规模样本相似性计算的开销,SCoS采用了基于多轮迭代的并行计算方式实现大规模样本之间的相似性计算.针对大规模谱聚类算法中耗时较长的Laplacian矩阵特征向量求解问题,SCoS基于ScaLAPACK实现了特征向量的并行化求解,同时文中也实现了近似特征向量计算算法,并且对比分析了精确特征向量计算与近似特征向量计算对于谱聚类算法的性能影响.为了进一步提升大规模谱聚类算法的性能,SCoS采取了矩阵稀疏化表示与存储、Laplacian矩阵乘法优化以及k-means聚类中距离计算放缩剪枝等多种优化手段,尽可能地减少计算开销、存储空间开销以及数据传输开销.实验表明,SCoS不仅在聚类效果上要优于传统的聚类算法,而且具有较高的运行效率,特别是在大规模数据集下,仍具有较高的计算性能,并表现出了良好的数据可扩展性和系统可扩展性.

知网文化
【相似文献】
中国期刊全文数据库 前20条
1 马秀丽;焦李成;;联合模型初始化独立谱聚类算法[J];西安电子科技大学学报;2007年05期
2 汪中;刘贵全;陈恩红;;基于模糊K-harmonic means的谱聚类算法[J];智能系统学报;2009年02期
3 孙昌思核;孔万增;戴国骏;;一种自动确定类个数的谱聚类算法[J];杭州电子科技大学学报;2010年02期
4 兰洋;;改进谱聚类算法在高等院校人才选拔中的应用[J];信阳师范学院学报(自然科学版);2010年04期
5 张力文;丁世飞;许新征;朱红;徐丽;;一种基于成对约束的谱聚类算法[J];广西师范大学学报(自然科学版);2010年04期
6 施培蓓;郭玉堂;胡玉娟;俞骏;;多尺度的谱聚类算法[J];计算机工程与应用;2011年08期
7 杨晓慧;王莉莉;李登峰;;一种新的层次谱聚类算法[J];上海理工大学学报;2014年01期
8 朱强生;何华灿;周延泉;;谱聚类算法对输入数据顺序的敏感性[J];计算机应用研究;2007年04期
9 金慧珍;赵辽英;;多层自动确定类别的谱聚类算法[J];计算机应用;2008年05期
10 孙大雷;孟凡荣;闫秋艳;;一种初始化不敏感的谱聚类算法[J];微电子学与计算机;2012年07期
11 陶新民;宋少宇;曹盼东;付丹丹;;一种基于流形距离核的谱聚类算法[J];信息与控制;2012年03期
12 徐天顺;;谱聚类算法研究[J];电脑知识与技术;2012年16期
13 白剑;杜杏虎;张国顺;刘媛;;并行谱聚类算法[J];网络安全技术与应用;2013年11期
14 施培蓓;郭玉堂;胡玉娟;俞骏;;初始化独立的谱聚类算法[J];计算机工程与应用;2010年25期
15 郑吉;苗夺谦;王睿智;钟才明;;一种基于粗糙集理论的谱聚类算法[J];计算机科学;2009年05期
16 牛科;贾郭军;;基于Hadoop云平台的并行谱聚类算法的设计与实现[J];山西师范大学学报(自然科学版);2014年01期
17 卜德云;张道强;;自适应谱聚类算法研究[J];山东大学学报(工学版);2009年05期
18 李新叶;余晓晔;;适用于复杂结构的多路谱聚类算法的改进[J];北京工业大学学报;2013年03期
19 邓小燕;甘晓玲;唐宜;;谱聚类算法在基因表达数据分析中的应用[J];现代计算机(专业版);2014年09期
20 金慧珍;赵辽英;;大规模数据集的多层聚类算法[J];杭州电子科技大学学报;2008年03期
中国硕士学位论文全文数据库 前10条
1 戴虔;基于密度敏感的谱聚类算法研究[D];重庆邮电大学;2017年
2 李纯;快速谱聚类算法的研究与应用[D];哈尔滨工程大学;2012年
3 董彬;一种基于主动学习的半监督谱聚类算法研究[D];中国矿业大学;2015年
4 刘萍萍;基于特征间隙检测簇数的谱聚类算法研究[D];南京邮电大学;2015年
5 崔慧岭;一种面向大数据的文本聚类算法[D];湖北师范大学;2016年
6 徐大海;基于分布式的谱聚类算法在虚拟社区发现上的应用研究[D];暨南大学;2016年
7 王有华;基于归一化压缩距离的文本谱聚类算法研究[D];贵州大学;2016年
8 张涛;基于密度估计的谱聚类算法研究与应用[D];江南大学;2016年
9 包秀娟;聚类有效性指标结构分析及应用[D];天津大学;2014年
10 周燕琴;基于改进谱聚类算法在医学图像中的应用研究[D];广西师范学院;2016年
中国重要报纸全文数据库 前1条
1 本报记者 那罡;微软Spark计划再添新成员[N];中国计算机报;2009年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62982499
  • 010-62783978