收藏本站
收藏 | 投稿 | 论文排版

基于Spark的并行FP-Growth算法优化及实现

顾军华  武君艳  许馨匀  谢志坚  张素琪  
【摘要】:为了进一步提高在Spark平台上的频繁模式增长(FP-Growth)算法执行效率,提出一种新的基于Spark的并行FP-Growth算法——BFPG。首先,从频繁模式树(FP-Tree)规模大小和分区计算量对F-List分组策略进行改进,保证每个分区负载总和近似相等;然后,通过创建列表P-List对数据集划分策略进行优化,减少遍历次数,降低时间复杂度。实验结果表明,BFPG算法提高了并行FP-Growth算法挖掘效率,且算法具有良好的扩展性。

知网文化
【相似文献】
中国期刊全文数据库 前20条
1 顾军华;武君艳;许馨匀;谢志坚;张素琪;;基于Spark的并行FP-Growth算法优化及实现[J];计算机应用;2018年11期
2 邵梁;何星舟;尚俊娜;;基于Spark框架的FP-Growth大数据频繁项集挖掘算法[J];计算机应用研究;2018年10期
3 朱颢东;薛校博;李红婵;孟颍辉;;海量数据下基于Hadoop的分布式FP-Growth算法[J];轻工学报;2018年05期
4 冯兴杰;潘轩;;基于Spark的投影树频繁项集挖掘算法[J];计算机工程与设计;2018年08期
5 何中胜;庄燕滨;;基于Apriori & Fp-growth的频繁项集发现算法[J];计算机技术与发展;2008年07期
6 高琪娟;刘锴;陈佳;;面向Spark的图书借阅数据关联模型的研究[J];安徽农业大学学报;2018年04期
7 陈明洁;;分布式频繁项集挖掘算法[J];计算机应用与软件;2015年10期
8 邓玲玲;娄渊胜;叶枫;;FP-growth算法改进与分布式Spark研究[J];微型电脑应用;2016年05期
9 李挥剑;;大数据环境下频繁项集挖掘的研究[J];青岛科技大学学报(自然科学版);2015年02期
10 刘群;贾泂;;一种分布式全局频繁项集挖掘方法[J];计算机工程与应用;2011年29期
11 肖文;胡娟;周晓峰;;基于MapReduce计算模型的并行关联规则挖掘算法研究综述[J];计算机应用研究;2018年01期
12 廖勇;;基于差分隐私的频繁项集挖掘研究综述[J];电子技术与软件工程;2016年03期
13 李广璞;黄妙华;;频繁项集挖掘的研究进展及主流方法[J];计算机科学;2018年S2期
14 陈静;郑彦;;基于二叉树的并行频繁项集挖掘算法[J];计算机技术与发展;2015年10期
15 吴建章;韩立新;曾晓勤;;一种基于多核微机的闭频繁项集挖掘算法[J];计算机应用与软件;2013年03期
16 秦丽君;罗雄飞;;基于动态项集计数的加权频繁项集算法[J];计算机工程;2012年03期
17 眭俊明;姜远;周志华;;基于频繁项集挖掘的贝叶斯分类算法[J];计算机研究与发展;2007年08期
18 高振中;蒋华;刘巍;;基于频繁项集的一种关联规则改进方法[J];计算机与现代化;2006年07期
19 孙杨模;;操作系统常见的几种算法举例分析[J];湖北三峡职业技术学院学报;2010年02期
20 黄红星;;挖掘完全频繁项集的蚁群算法[J];微电子学与计算机;2014年12期
中国重要会议论文全文数据库 前10条
1 程祥;肖恪;唐朋;苏森;;一种两阶段的满足差分隐私的频繁项集挖掘算法[A];2016年全国通信软件学术会议程序册与交流文集[C];2016年
2 李坤;王永炎;王宏安;;一种基于乐观裁剪策略的挖掘数据流滑动窗口上闭合频繁项集的算法[A];第二十五届中国数据库学术会议论文集(二)[C];2008年
3 杨晓明;王晨;汪卫;张守志;施伯乐;;频繁项集的精简表达与还原问题研究[A];第二十一届中国数据库学术会议论文集(技术报告篇)[C];2004年
4 李文;程华良;彭耀;温明杰;肖威清;张陈斌;陈宗海;;基于Spark可视化大数据挖掘平台[A];系统仿真技术及其应用学术论文集(第15卷)[C];2014年
5 王洪利;冯玉强;;频繁项集挖掘算法Apriori的改进研究[A];全国第九届企业信息化与工业工程学术会议论文集[C];2005年
6 陈晓云;李龙杰;马志新;白伸伸;王磊;;AFP-Miner:一种新高效的频繁项集挖掘算法[A];2006年全国理论计算机科学学术年会论文集[C];2006年
7 李彤岩;李兴明;;基于分布式关联规则挖掘的告警相关性研究[A];2007通信理论与技术新发展——第十二届全国青年通信学术会议论文集(下册)[C];2007年
8 黄崇争;李海峰;陈红;;数据流上近似非可导项集的挖掘算法[A];NDBC2010第27届中国数据库学术会议论文集A辑一[C];2010年
9 谢志军;陈红;;EFIM——数据流上频繁项集挖掘的高性能算法[A];第二十三届中国数据库学术会议论文集(技术报告篇)[C];2006年
10 温明杰;彭耀;李军;任德虎;赵致杰;张陈斌;陈宗海;;基于Spark深度学习的客户流失分析[A];系统仿真技术及其应用(第16卷)[C];2015年
中国博士学位论文全文数据库 前10条
1 彭展;序列挖掘中几类关键问题的模型及算法研究[D];西安电子科技大学;2017年
2 李洁;基于自然计算的模糊聚类新算法研究[D];西安电子科技大学;2004年
3 王喆;商务数据中的关联和聚类算法研究[D];吉林大学;2005年
4 朱胜利;Mean Shift及相关算法在视频跟踪中的研究[D];浙江大学;2006年
5 王征;分布式互斥算法的研究与实现[D];电子科技大学;2007年
6 屈俊峰;频繁项集与高可用项集挖掘算法及其性能研究[D];武汉大学;2013年
7 温磊;基于有向项集图的关联规则挖掘算法研究与应用[D];天津大学;2004年
8 贾彩燕;关联规则挖掘的取样复杂性分析[D];中国科学院研究生院(计算技术研究所);2004年
9 李赓飞;自适应图像实时增强算法的技术研究[D];中国科学院大学(中国科学院长春光学精密机械与物理研究所);2017年
10 郑晓艳;频繁模式挖掘技术研究及其在供应链管理中的应用[D];天津大学;2010年
中国硕士学位论文全文数据库 前10条
1 陈少总;基于Spark的分布式频繁项集挖掘算法研究[D];东华大学;2017年
2 张宝聪;经典社区发现算法的比较分析[D];山西大学;2017年
3 彭学武;基于位运算的闭频繁项集挖掘算法的研究[D];郑州大学;2010年
4 郭婷婷;大图上重叠社区发现算法的研究与实现[D];东北大学;2015年
5 王义超;基于Hadoop的面向web规模图数据的社区发现算法的研究与实现[D];东北大学;2015年
6 朱宪飞;交通系统监控环境下车辆异常行为识别算法研究[D];山东大学;2018年
7 喻娜娜;基于字典对学习的癫痫检测算法[D];山东大学;2018年
8 缪连芬;改进的C4.5算法在大学生情感素质分析中的研究与应用[D];上海师范大学;2018年
9 杨丹;红外弱小运动目标的检测算法研究[D];西安理工大学;2018年
10 姜丹;基于视频监控的目标检测与跟踪算法研究[D];西安理工大学;2018年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62982499
  • 010-62783978