收藏本站
收藏 | 投稿 | 手机打开
二维码
手机客户端打开本文

基于MapReduce模型的范围查询分析优化技术研究

赵辉  杨树强  陈志坤  尹洪  金松昌  
【摘要】:近年来,MapReduce并行计算模型受到工业界和学术界广泛关注.基于该模型的系统实现已在谷歌、雅虎、Facebook等大公司内部成功应用.然而,基于MapReduce的系统实现最初用于解决海量无结构、半结构化数据的批处理问题,例如生成倒排索引、计算网页的pagerank、日志分析等,在设计上缺乏针对海量结构化数据进行交互式分析处理的优化考虑,例如:它总是采用全数据集强力扫描的数据处理模式,这有悖于结构化数据管理中常用的操作模式———选择性查询分析处理.针对该问题,引入传统数据库管理领域中常用的全局索引技术,将其应用在基于MapReduce模型的开源项目Hadoop上,以block为粒度对Hadoop分布式文件系统上的结构化数据构建全局索引结构,并给出一种面向范围查询分析的作业编译与调度执行优化算法,主要目标是基于应用语义及辅助索引结构减少不必要的map任务数,进而优化作业的调度开销和执行开销.在实验验证阶段,给出了80%,50%,30%,10%四种数据选择率在3种集群规模下的优化效果,发现作业响应时间最高可提升5倍,I?O开销最高提升10倍,任务调度开销最高提升11倍.

知网文化
【相似文献】
中国期刊全文数据库 前20条
1 郑欣杰;朱程荣;熊齐邦;;基于MapReduce的分布式光线跟踪的设计与实现[J];计算机工程;2007年22期
2 王丽杰;宋广军;;基于道路网络的移动对象全时态索引与查询[J];齐齐哈尔大学学报;2008年06期
3 刘玥;郝忠孝;;基于Buddy~*-Hash的移动对象时空查询方法[J];计算机工程;2010年04期
4 宋广军;郝忠孝;王丽杰;;道路网络中移动对象的索引研究[J];计算机工程与应用;2010年22期
5 吴凌坤;汤庸;王鹏;舒然;;SA:一种有利于多属性范围查询的多维聚簇方法[J];计算机科学;2009年06期
6 王润华;;基于Hadoop集群的分布式日志分析系统研究[J];科技信息;2009年15期
7 丁光华;周继鹏;周敏;;基于MapReduce的并行贝叶斯分类算法的设计与实现[J];微计算机信息;2010年09期
8 李远方;邓世昆;闻玉彪;韩月阳;;Hadoop-MapReduce下的PageRank矩阵分块算法[J];计算机技术与发展;2011年08期
9 崔振;任亚洲;王瑞;;基于DCT的时序数据相似性搜索[J];计算机应用;2007年05期
10 崔斌;卢阳;;基于不确定数据的查询处理综述[J];计算机应用;2008年11期
11 王鄂;李铭;;云计算下的海量数据挖掘研究[J];现代计算机(专业版);2009年11期
12 孟宪福;张振强;;基于聚类金字塔的Chord超矩形范围查询[J];计算机工程;2010年14期
13 戎翔;李玲娟;;基于MapReduce的频繁项集挖掘方法[J];西安邮电学院学报;2011年04期
14 梁俊杰;杨泽新;冯玉才;;大规模高维向量空间的快速范围查询[J];小型微型计算机系统;2007年07期
15 陈逸菲;秦小麟;;NU~2RA:一种路网中不确定移动对象范围查询分析方法[J];计算机研究与发展;2010年06期
16 蒋澜;朱明;;基于DHT的高维数据相似性检索方法研究[J];小型微型计算机系统;2010年09期
17 刘金岭;;基于P2P网络的AVL索引树范围查询研究[J];微电子学与计算机;2011年02期
18 金欣;王晶;沈奇威;;分布式最小生成树聚类的设计与实现[J];计算机系统应用;2011年07期
19 仇李寅;邱卫东;苏芊;廖凌;;基于Hadoop的分布式哈希算法实现[J];信息安全与通信保密;2011年11期
20 蒋建洪;;主要分布式搜索引擎技术的研究[J];科学技术与工程;2007年10期
中国重要会议论文全文数据库 前10条
1 何文麟;曹芳菲;陈红;;传感器网络中多近似连续范围查询的处理技术[A];第26届中国数据库学术会议论文集(A辑)[C];2009年
2 李瑞;王朝坤;郑伟;王建民;王伟平;;基于MapReduce框架的近似复制文本检测[A];NDBC2010第27届中国数据库学术会议论文集(B辑)[C];2010年
3 张佳宝;周斌;吴泉源;;基于Hadoop的并行化命名实体识别技术研究与实现[A];全国计算机安全学术交流会论文集·第二十五卷[C];2010年
4 赵伟;陈承收;李立军;;基于MapReduce云计算模型的碰撞检测算法[A];'2010系统仿真技术及其应用学术会议论文集[C];2010年
5 孙广中;肖锋;熊曦;;MapReduce模型的调度及容错机制研究[A];2007年全国开放式分布与并行计算机学术会议论文集(上册)[C];2007年
6 郑启龙;房明;汪胜;王向前;吴晓伟;王昊;;基于MapReduce模型的并行科学计算[A];2009年全国开放式分布与并行计算机学术会议论文集(上册)[C];2009年
7 郑启龙;王昊;吴晓伟;房明;;HPMR:多核集群上的高性能计算支撑平台[A];2008年全国开放式分布与并行计算机学术会议论文集(上册)[C];2008年
8 王远飞;陆涛;宓伟杰;邵德民;冯景贤;;GIS集成的热带气旋查询分析系统研究[A];认识地理过程 关注人类家园——中国地理学会2003年学术年会文集[C];2003年
9 董尚力;朱莲芳;唐毅;蒯志敏;;雷电定位查询分析系统的研究与应用[A];首届长三角气象科技论坛论文集[C];2004年
10 张明生;;基于数据挖掘的学生成绩分析系统设计与实现[A];教育技术应用与整合研究论文[C];2005年
中国博士学位论文全文数据库 前10条
1 李韧;基于Hadoop的大规模语义Web本体数据查询与推理关键技术研究[D];重庆大学;2013年
2 史恒亮;云计算任务调度研究[D];南京理工大学;2012年
3 程兴国;仿生算法的动态反馈机制及其并行化实现方法研究[D];华南理工大学;2013年
4 韩海雯;MapReduce计算任务调度的资源配置优化研究[D];华南理工大学;2013年
5 师智斌;高性能数据立方体及其语义研究[D];北京交通大学;2010年
6 吴昊;云计算环境下智能优化算法及其在SaaS中的应用研究[D];合肥工业大学;2013年
7 庄毅;海量多媒体数据库的高效查询处理[D];浙江大学;2007年
8 赵春宇;高性能并行GIS中矢量空间数据存取与处理关键技术研究[D];武汉大学;2006年
9 梁俊杰;大规模图像库的高维索引技术研究[D];华中科技大学;2007年
10 徐林昊;对等计算系统中的相似查询处理研究[D];复旦大学;2005年
中国硕士学位论文全文数据库 前10条
1 李志娟;MapReduce仿真及Hadoop公平调度算法研究[D];哈尔滨工程大学;2013年
2 陈艳金;MapReduce模型在Hadoop平台下实现作业调度算法的研究和改进[D];华南理工大学;2011年
3 杨婷;基于MapReduce的好友推荐系统的研究与实现[D];北京邮电大学;2013年
4 程锦佳;基于Hadoop的分布式爬虫及其实现[D];北京邮电大学;2010年
5 温程;并行聚类算法在MapReduce上的实现[D];浙江大学;2011年
6 曹润涛;基于Hadoop的移动感知系统的设计与实现[D];西安电子科技大学;2012年
7 朱晨杰;MapReduce作业组合系统的研究与实现[D];上海交通大学;2013年
8 尹超;基于Hadoop的聚类算法的研究与应用[D];西安建筑科技大学;2013年
9 王凯;MapReduce集群多用户作业调度方法的研究与实现[D];国防科学技术大学;2010年
10 邹彩辉;基于Hadoop平台的自适应局部超平面K近邻算法的研究[D];华南理工大学;2011年
中国重要报纸全文数据库 前10条
1 刘琦;MapReduce:亚马逊云服务再添新援[N];中国计算机报;2009年
2 ;“营销通”:集CRM与OA于一体[N];计算机世界;2003年
3 本报记者 刘洪宇;Hadoop的中国前途[N];中国计算机报;2009年
4 郑依华;部署搜索应用开发环境[N];计算机世界;2006年
5 ;电子政务数据交换平台解决方案[N];计算机世界;2006年
6 顾春;金创集团实现会计电算化[N];中国黄金报;2007年
7 张海军;输配网GIS一体化破解“信息孤岛”[N];中国电力报;2006年
8 雷阳;BEA借技术开拓SOA市场[N];电脑商报;2006年
9 刘琳;地理信息系统发展趋势[N];中国测绘报;2008年
10 ;Ework助电子政务迈上新台阶[N];中国高新技术产业导报;2004年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62982499
  • 010-62783978