收藏本站
《北京邮电大学学报》 2020年03期
收藏 | 投稿 | 手机打开
二维码
手机客户端打开本文

一种海量数据快速聚类算法

何倩  李双富  黄焕  徐红  
【摘要】:为满足海量数据处理要求,提出了一种基于网格的K-means快速聚类算法(SPGK).设计基于网格质心的聚类簇个数选取算法,对数据进行网格划分得到每个网格的质心,将质心作为K-means聚类的样本点,从而减少Kmeans的欧氏距离计算次数.该算法基于Spark平台实现并行计算,进一步地提高了算法的运行效率.SPGK不但能够获得良好的聚类效果,而且缩减了欧氏距离计算次数,适用于海量数据的快速聚类.在千万级数据集上的实验结果表明,SPGK的性能明显优于现有的K-means++和基于K均值聚类的递归划分方法.

知网文化
【相似文献】
中国期刊全文数据库 前18条
1 宋铭利;高新科;;基于距离的最大聚类数探索算法的探讨[J];矿山机械;2006年09期
2 赵姝,张燕平,张铃,张媛,陈传明;覆盖聚类算法[J];安徽大学学报(自然科学版);2005年02期
3 黄金花;;聚类算法的分析与比较[J];科技信息(科学教研);2008年13期
4 朱永红;;覆盖聚类算法的应用研究[J];计算机技术与发展;2007年01期
5 张红云,石阳,马垣;数据挖掘中聚类算法比较研究[J];鞍山钢铁学院学报;2001年05期
6 李莉;;基于16SrRNA基因高通量测序聚类算法综述[J];长春师范大学学报;2020年02期
7 王晓燕;;常用的聚类算法及改进算法的研究[J];办公自动化;2013年18期
8 李爱华;尹斐斐;;网格聚类算法研究[J];科技致富向导;2012年23期
9 杨铭;;数据挖掘中聚类算法的分析与研究[J];网友世界;2014年15期
10 赖建章;倪志伟;刘志伟;;一种基于密度树的网格快速聚类算法的研究[J];计算机工程;2006年17期
11 严馨,周丽华,陈克平,徐广义;一种改进的带障碍的基于密度和网格的聚类算法[J];计算机应用;2005年08期
12 胡翰;戴琴;李威;刘仕琴;;改进的聚类算法在入侵检测系统中的应用分析[J];花炮科技与市场;2019年04期
13 瞿原;邓维斌;胡峰;张其龙;王鸿;;基于Spark的点排序识别聚类结构算法[J];计算机科学;2018年01期
14 王安志;李明东;李超;;各种聚类算法及改进算法的研究[J];电脑知识与技术;2008年25期
15 张嫣;安中印;宋中山;;数据挖掘中的聚类算法[J];电脑知识与技术(学术交流);2007年07期
16 李学;苗夺谦;冯琴荣;;基于数据场的粗糙聚类算法[J];计算机科学;2009年02期
17 胡庆林;叶念渝;朱明富;;数据挖掘中聚类算法的综述[J];计算机与数字工程;2007年02期
18 臧少杰;;数据挖掘常用聚类算法[J];科技信息(科学教研);2007年30期
中国重要会议论文全文数据库 前10条
1 赖桃桃;冯少荣;张东站;;一种基于划分和密度的快速聚类算法[A];第二十五届中国数据库学术会议论文集(一)[C];2008年
2 郝芸;田野;康辉;;分布式聚类算法的研究[A];第九届中国通信学会学术年会论文集[C];2012年
3 陈德华;解维;李悦;;面向大规模图数据的分布式并行聚类算法研究[A];第29届中国数据库学术会议论文集(B辑)(NDBC2012)[C];2012年
4 孟军;王宏科;王秀坤;沈浪;;基于密度网格树的数据流聚类算法[A];第五届全国信息检索学术会议论文集[C];2009年
5 金文;钱卫宁;周傲英;施伯乐;;一种新颖、高效、基于综合因素的聚类算法[A];第十六届全国数据库学术会议论文集[C];1999年
6 葛鹏程;李建中;张兆功;何震瀛;;一种基于势能的快速聚类算法[A];第二十二届中国数据库学术会议论文集(研究报告篇)[C];2005年
7 魏昕路;洪志令;姜青山;;一种基于样本缩减策略的新窗口式聚类算法[A];第二十四届中国数据库学术会议论文集(研究报告篇)[C];2007年
8 罗丹;邓浩;毛先成;;一种基于密度的半监督聚类算法[A];第十五届全国数学地质与地学信息学术研讨会论文集[C];2016年
9 熊薇薇;吴怀宇;;一种改进的角点检测算法[A];中国计量协会冶金分会2009年年会论文集[C];2009年
10 刘彤;孙永香;张振洪;;一种有效的基于密度和层次的聚类算法[A];2007'仪表,自动化及先进集成技术大会论文集(一)[C];2007年
中国重要报纸全文数据库 前10条
1 实习生 高行健;新算法助力人类“解梦”[N];科技日报;2020年
2 重庆市第四中级人民法院 艾庆平;赛博世界的算法规制[N];人民法院报;2020年
3 赵熙熙;科学家开发出纠错新算法[N];中国科学报;2017年
4 本报记者 刘霞;当算法统治世界[N];科技日报;2011年
5 PALADIN;对算法进行分析(1)[N];电脑报;2003年
6 Vishala Sri-Pathma 赵容 编译;算法交易——市场增长的重要趋动因素[N];期货日报;2009年
7 中国虫;算法演义[N];电脑报;2003年
8 PALADIN;算法演义[N];电脑报;2003年
9 记者 罗文辉;美国算法交易平台进军国内期市[N];第一财经日报;2012年
10 记者 刘肖勇 蔡敏霞 通讯员 严偲偲;一套算法让模糊低清小视频变高清[N];广东科技报;2019年
中国博士学位论文全文数据库 前10条
1 万淼;基于群智能和随机索引的网络聚类算法研究[D];北京邮电大学;2011年
2 许玉杰;云计算环境下海量数据的并行聚类算法研究[D];大连海事大学;2014年
3 王振佳;基于基因表达数据的双聚类算法研究[D];山东大学;2016年
4 王贵参;重叠社区发现中的边聚类算法研究[D];吉林大学;2016年
5 李美安;普适分布式互斥算法及应用[D];电子科技大学;2007年
6 石陆魁;非线性维数约减算法中若干关键问题的研究[D];天津大学;2005年
7 赵进慧;膜计算仿生优化算法及应用研究[D];浙江大学;2010年
8 朱绍军;模型自动选择聚类算法的研究与应用[D];宁波大学;2014年
9 姜磊;混合演化聚类算法研究及其应用[D];武汉大学;2012年
10 赖鑫生;演化算法与混合算法的性能研究[D];华南理工大学;2014年
中国硕士学位论文全文数据库 前10条
1 解英杰;聚类算法及其在高职院校学生信息管理系统中的应用研究[D];山东师范大学;2012年
2 李萍;Affinity Propagation聚类算法的改进及其应用研究[D];浙江大学;2017年
3 陈祺;基于均场退火算法的半监督聚类方法的研究及应用[D];华南理工大学;2012年
4 孙文杰;基于层次的混合聚类算法研究[D];江西理工大学;2013年
5 周末;基于蚁群算法的数据流聚类算法[D];东北大学;2009年
6 郝丽静;面向微博话题的粒子群优化聚类算法研究[D];河南理工大学;2016年
7 方匡南;基于数据挖掘的分类和聚类算法研究及R语言实现[D];暨南大学;2007年
8 李省委;基于密度的数据流聚类算法研究[D];西安电子科技大学;2017年
9 李文俊;面向离散时间序列的聚类算法研究[D];南京师范大学;2012年
10 梁荣德;聚类融合算法的实验评价方法[D];广东工业大学;2015年
中国知网广告投放
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62982499
  • 010-62783978