收藏本站
收藏 | 投稿 | 手机打开
二维码
手机客户端打开本文

分布式数据库下基于剪枝的并行合并连接策略

高锦涛  李战怀  杜洪涛  刘文洁  
【摘要】:排序合并连接是数据库系统一种重要的连接实现方式,比哈希连接有更广泛的应用.分布式环境下,数据分片、分布存储,面对昂贵的网络代价,进行高效排序合并连接的挑战巨大.传统策略首先针对连接数据进行排序,然后基于排好序的数据执行合并连接.这两部分操作均基于原始数据进行操作,通常情况下,原始连接数据存在无用数据块,这些数据块无需连接,但会增加额外开销,包括网络开销.随着数据量的增多,出现无用数据块的概率增大,额外开销随之增多.传统策略没有预先处理这些无用数据块.针对这个问题,提出一种分布式环境下基于剪枝的并行排序合并连接策略(parallel sort-merge join based on prune,简称Pr_PSMJ).其特点是,连接发生之前高效完成对连接对象无用数据块的剪枝处理,提高整体连接效率.基本思想是,根据连接对象对应的连接分区数据统计信息,构造一种双边邻接表(bilateral adjacency list,简称BAL),用来对连接数据中无用数据块进行剪枝,并保证最终连接结果的正确性;剪枝完成后,利用BAL计算出各个最佳本地连接执行点,并指导分区数据的迁移,使数据移动量最小;在连接阶段,由于BAL保证本地连接执行节点的独立性,因此能够轻松并行执行整个连接过程,并在每个连接点本地利用多核环境完成局部并行排序合并连接;最后,将局部结果合并成最终结果.由于Pr_PSMJ中的高效剪枝策略是在连接执行之前完成的,因此几乎适合任何合并连接操作,并且对于其他连接策略也有借鉴作用.给出了基于Pr_PSMJ的算法的正确性、效率性以及适应性分析,并且给出实验验证,证明了在分布式大数据量排序合并连接情况下,Pr_PSMJ相对于其他策略能够有效减少网络开销,并提高连接效率.

知网文化
【相似文献】
中国期刊全文数据库 前17条
1 曹曼曼;汪勉;;关于分布式数据库准确分类仿真研究[J];计算机仿真;2019年01期
2 俞洪宝;吴迪;于子洋;任利峰;;分布式数据库在大数据时代中的作用[J];产业与科技论坛;2019年17期
3 刘继敏;;分布式数据库中数据交换的实现[J];数字技术与应用;2017年11期
4 马宗梅;张睿萍;;分布式数据库信息传输效率优化仿真[J];计算机仿真;2018年05期
5 潘潁;;确定性分布式数据库中长事务处理方法研究[J];数字技术与应用;2017年02期
6 陈蓓;刘文涛;;银行业如何玩转分布式数据库[J];金融电子化;2016年12期
7 刘文洁;陈震;李战怀;;一种面向海量分布式数据库的游标构造方法[J];西北工业大学学报;2017年04期
8 祁迪;;分布式数据库特点及其设计方法[J];山东工业技术;2016年01期
9 郑景文;;分布式数据库的安全分析[J];信息与电脑(理论版);2016年05期
10 李健;;中职一卡通系统的设计与实现[J];现代职业教育;2017年02期
11 夏伟峰;;分布式数据库在管理信息系统中的应用分析[J];数码世界;2017年07期
12 王鑫;王占江;;浅谈分布式数据库架构[J];计算机光盘软件与应用;2012年08期
13 郑义;;对分布式数据库查询优化的一些探讨[J];信息与电脑(理论版);2012年12期
14 耿永利;;浅谈分布式数据库系统安全的策略[J];硅谷;2010年10期
15 张根荣;;分布式数据库两阶段提交协议的改进[J];黑龙江科技信息;2008年30期
16 刘金民;;分布式数据库的前世今生[J];软件世界;2007年12期
17 范里程;;分布式数据库优劣说[J];软件世界;2007年12期
中国重要会议论文全文数据库 前10条
1 张金昌;冯聿华;;分布式数据库的安全性探讨[A];第一次全国计算机安全技术交流会论文集[C];1986年
2 夏薇;郭天杰;郭睿;;一种分布式数据库安全模型[A];第六届全国信息获取与处理学术会议论文集(2)[C];2008年
3 杜方;刘利萍;蒙应杰;赵书城;;基于分布式数据库的物流系统的设计和实现[A];第十八届全国数据库学术会议论文集(研究报告篇)[C];2001年
4 李鹏;程华;;大型分布式数据库在煤矿企业的应用[A];山东煤炭学会工业信息化专业委员会2011年度工作会议暨物联网技术推进煤矿信息化学术论坛学术论文集[C];2011年
5 刘爱梅;卓鸿;刘树峰;;分布式数据库的安全应用分析[A];信息技术在气象领域的开发应用论文集(一)[C];2005年
6 杜会林;袁小京;;分布式数据库在油田中的应用[A];第十届全国数据库学术会议论文集[C];1992年
7 王甘霖;汤彬;陈明;;基于VLAN的分布式数据库技术应用研究[A];第二十二届中国数据库学术会议论文集(技术报告篇)[C];2005年
8 顾宁;蒋凡;王放;;分布式数据库的异种性数据语言的转换与实现[A];第九届全国数据库学术会议论文集(上)[C];1990年
9 杨乔苟;;基于分布式数据库的远程教育系统[A];第十七届全国数据库学术会议论文集(技术报告篇)[C];2000年
10 卢朝霞;王家华;;一个大型分布式数据库应用系统的设计和实现[A];第九届全国数据库学术会议论文集(下)[C];1990年
中国博士学位论文全文数据库 前2条
1 刘义理;分布式数据库安全框架研究[D];同济大学;2006年
2 李光;分类挖掘中的隐私保护问题研究[D];哈尔滨工业大学;2011年
中国硕士学位论文全文数据库 前10条
1 宫文博;面向环境感知的高并发车联网分布式数据库负载均衡系统[D];桂林电子科技大学;2019年
2 何毅帆;基于计算与存储分离的Key-Value数据库的研究与实现[D];电子科技大学;2019年
3 赵江;基于LevelDB的分布式数据库的研究与实现[D];电子科技大学;2019年
4 叶子安;基于分布式的高性能Web站点的设计与实现[D];华南理工大学;2018年
5 吴佩;分布式数据库查询任务调度方法研究[D];武汉理工大学;2017年
6 辛蔚;基于分布式数据库HBase的负载均衡策略研究及实现[D];北京工业大学;2018年
7 刘少华;基于改进遗传算法的分布式数据库查询优化[D];广西大学;2017年
8 王伟鹏;企业级分布式数据中心系统的设计与实现[D];华中科技大学;2016年
9 欧巍;基于分布式数据库的高校教务管理系统设计与开发[D];湖南大学;2015年
10 孙鹏;基于本体的分布式数据库语义映射研究[D];辽宁大学;2011年
中国重要报纸全文数据库 前6条
1 焦旭;未来分布式数据库的发展必将呈增长趋势[N];计算机世界;2019年
2 招商银行总行信息技术部总经理 周天虹;招商银行AI时代的分布式数据库[N];中国信息化周报;2018年
3 本报记者 卜娜;替代Oracle[N];中国计算机报;2015年
4 李青 李桂炎;浅谈数字城镇的发展[N];中国测绘报;2009年
5 文萱;到底什么是大数据?[N];中国出版传媒商报;2015年
6 曹磊 陈薇娜 上海图书馆上海科学技术情报研究所;科学理性拨开大数据的神秘外衣[N];科技日报;2014年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62982499
  • 010-62783978