收藏本站
收藏 | 投稿 | 手机打开
二维码
手机客户端打开本文

面向海量数据的并行KMeans算法

周丽娟  王慧  王文伯  张宁  
【摘要】:针对海量数据的特性及KMeans算法的并行特性,提出了一种基于MapReduce编程框架的并行聚类算法,给出了算法的主要设计方法和策略.Map函数计算出每个记录所属的簇并用簇标号来标记;为了减少网络流量,利用Combine函数合并了本地的簇中的样本和;Reduce函数合并簇中所有的记录,并重新计算聚类的中心,供下一轮MapReduce迭代使用.最后用不同大小的数据集对改进算法的效率及伸缩性进行了验证,结果表明基于Hadoop的并行KMeans算法适合于海量数据的分析和挖掘.

知网文化
【相似文献】
中国期刊全文数据库 前20条
1 马照亭;李成名;王继周;潘懋;;海量地形可视化的研究现状与前景展望[J];测绘科学;2006年01期
2 周婧;王意洁;阮炜;李思昆;;面向海量数据的数据一致性研究[J];计算机科学;2006年04期
3 吴丽娟;郑冕;张彩明;;海量空间数据点k近邻的快速搜索算法[J];小型微型计算机系统;2007年01期
4 吴飞;解智强;赵俊三;;海量数据下三维影像图的制作与关键问题探讨——以昆明市域为例[J];测绘信息与工程;2007年03期
5 王新筠;;数据挖掘技术在图书馆自动化管理系统中的应用[J];科技情报开发与经济;2007年26期
6 王喆;潘懋;戴婉薇;郭艳军;;支持海量数据操作的Oracle数据引擎的设计与实现[J];地理与地理信息科学;2008年02期
7 邢海韬;饶健菱;;应用先进管理技术实现海量数据统一管理[J];大众科技;2008年09期
8 伊雯雯;孙涌;尹春晖;;集群环境下个性化检索系统的研究与实现[J];苏州大学学报(自然科学版);2008年03期
9 杨国安;郭乃明;;应用于海洋平台安全保障系统的海量数据管理[J];计算机与现代化;2009年03期
10 贲进,张永生,童晓冲;地形可视化系统Terra Vision技术分析及其在全球海量空间数据管理中的应用[J];测绘通报;2005年06期
11 孟斌;王亮;;高并发和海量数据的地图服务系统设计与关键技术[J];重庆工学院学报(自然科学版);2009年04期
12 宫中樑;唐杰;武港山;;基于预计算切片序列的动态体绘制技术[J];计算机技术与发展;2010年08期
13 刘陵;方军;陈利生;张洋洋;;三维GIS的研究现状及其发展趋势[J];矿山测量;2011年02期
14 张缔香;;基于R软件RODBC包的海量企业经营数据分析[J];西部经济管理论坛;2011年02期
15 郭晶,王洪哲;在管理信息系统中集成实时监控系统信息的一种方案[J];计算机系统应用;2001年07期
16 徐海云;涂雄苓;;海量数据导入与导出MATLAB的有效方法[J];数理统计与管理;2007年04期
17 刘华富;张文生;;模糊分类系统的邻域原理设计算法[J];计算机工程与设计;2007年17期
18 李雪婵;;基于数据库抽样的海量数据分类算法研究[J];计算机科学;2008年06期
19 王贵武;解智强;李世强;高忠;;利用海量探测数据实现昆明市地下管线三维建模的应用研究[J];测绘科学;2009年06期
20 雷亚娟;张世平;;Delphi实现大容量数据的高速导入[J];电脑编程技巧与维护;2010年06期
中国重要会议论文全文数据库 前10条
1 张坜;孙国强;;集装箱运输系统ETL的设计与实现[A];第七届全国信息获取与处理学术会议论文集[C];2009年
2 陈建海;王建弟;李子川;;基于数据仓库的地籍管理信息系统框架设计[A];地理空间信息技术及其应用论坛论文集[C];2005年
3 陈建海;王建弟;李子川;;基于数据仓库的地籍管理信息系统框架设计[A];中国地理信息系统协会第九届年会论文集[C];2005年
4 陈卓;刘晓平;;关于BISONC程序的交互式数据处理及科学计算的可视化[A];全国第十五届计算机科学与技术应用学术会议论文集[C];2003年
5 李学军;;利用CASS地形图建立MapInfo数据库的探讨[A];2007'全国测绘科技信息交流会暨信息网成立30周年庆典论文集[C];2007年
6 李学军;;利用CASS地形图建立MapInfo数据库的探讨[A];中国测绘学会九届三次理事会暨2007年“信息化测绘论坛”学术年会论文集[C];2007年
7 徐辉;王闯;;主体功能区规划地理信息数据库技术平台建设研究[A];科技创新与节能减排——吉林省第五届科学技术学术年会论文集(上册)[C];2008年
8 孙久虎;刘振义;相恒茂;焦英华;韩海丰;;面向数字地球的海量数据动态管理方法研究[A];2009全国测绘科技信息交流会暨首届测绘博客征文颁奖论文集[C];2009年
9 吴丽娟;郑冕;张彩明;;四边形网格划分过程中的边界处理[A];计算机技术与应用进展——全国第17届计算机科学与技术应用(CACIS)学术会议论文集(下册)[C];2006年
10 张峰;宋杰;周德友;王大玲;鲍玉斌;于戈;;一种实时数据仓库中海量数据高效分区算法[A];第二十五届中国数据库学术会议论文集(二)[C];2008年
中国博士学位论文全文数据库 前10条
1 王加阳;面向海量数据的粗糙集理论与方法研究[D];中南大学;2005年
2 管群;VR-GIS技术在岩土工程中的应用[D];四川大学;2002年
3 杜莹;全球多分辨率虚拟地形环境关键技术的研究[D];中国人民解放军信息工程大学;2005年
4 崔滨;海量数据实时三维交互式显示关键技术研究[D];上海大学;2010年
5 庄毅;海量多媒体数据库的高效查询处理[D];浙江大学;2007年
6 王永恒;海量短语信息挖掘技术的研究与实现[D];国防科学技术大学;2006年
7 刘静;协同进化算法及其应用研究[D];西安电子科技大学;2004年
8 杨兴强;三维数据处理中曲面建模问题研究[D];山东大学;2005年
9 刘君强;海量数据挖掘技术研究[D];浙江大学;2003年
10 于瑞国;维数约减算法研究及其在大规模文本数据挖掘中的应用[D];天津大学;2008年
中国硕士学位论文全文数据库 前10条
1 王桂强;海量数据分析处理方法的研究[D];上海交通大学;2010年
2 李宇;基于分布式数据库和数据挖掘技术的统计报表系统的分析与设计[D];吉林大学;2006年
3 黄煜;海量数据迁移和报表自动生成的研究和实现[D];上海交通大学;2010年
4 莫映;真三维地理信息系统中海量数据处理技术的应用研究[D];首都师范大学;2004年
5 王璐;MIS系统中集成实时监控系统与三层C/S结构的应用[D];长春理工大学;2002年
6 李文;虚拟天文台环境下的海量数据存储与访问技术研究[D];天津大学;2007年
7 杨耀明;海量地形快速绘制技术研究[D];国防科学技术大学;2004年
8 曾雪;海量数据的快速查询算法研究[D];南京邮电大学;2012年
9 吴金虎;基于Hadoop的大型网站海量数据的统计与应用[D];南京大学;2012年
10 覃涛;海量数据查询的优化处理及其在用电稽查系统中的应用[D];中南大学;2012年
中国重要报纸全文数据库 前10条
1 郑昊;数据挖掘加工海量数据[N];中国计算机报;2007年
2 本报记者 周源;向海量数据开战[N];网络世界;2010年
3 朱新亚;管理生物海量数据[N];中国计算机报;2003年
4 ;CommVault一体化信息管理全攻略(之四)[N];电脑商报;2008年
5 邓健;保险业商业智能 速度、维度与集成度并重[N];计算机世界;2006年
6 综合编译 霍娜 许继楠 刘光强;数据海量增长引发高级分析之争[N];中国计算机报;2010年
7 主持人 李禾;数据挖掘技术如何驱动经济车轮[N];科技日报;2007年
8 张彤;无胶片的未来[N];网络世界;2006年
9 伊礼俊;如何让海量数据自动进电脑[N];中国计算机报;2007年
10 张承东;Oracle加速创新[N];网络世界;2009年
中国知网广告投放
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62982499
  • 010-62783978