收藏本站
收藏 | 投稿 | 手机打开
二维码
手机客户端打开本文

Spark内存管理及缓存策略研究

孟红涛  余松平  刘芳  肖侬  
【摘要】:Spark系统是基于Map-Reduce模型的大数据处理框架。Spark能够充分利用集群的内存,从而加快数据的处理速度。Spark按照功能把内存分成不同的区域:Shuffle Memory和Storage Memory,Unroll Memory,不同的区域有不同的使用特点。首先,测试并分析了Shuffle Memory和Storage Memory的使用特点。RDD是Spark系统最重要的抽象,能够缓存在集群的内存中;在内存不足时,需要淘汰部分RDD分区。接着,提出了一种新的RDD分布式权值缓存策略,通过RDD分区的存储时间、大小、使用次数等来分析RDD分区的权值,并根据RDD的分布式特征对需要淘汰的RDD分区进行选择。最后,测试和分析了多种缓存策略的性能。

知网文化
【相似文献】
中国期刊全文数据库 前4条
1 黄祥志;刘南;刘仁义;张丰;李昭;;适用于可编辑WebGIS的动态缓存策略[J];计算机工程;2011年05期
2 陈兵;邰晓英;;基于数据缓存策略Ajax的人机交互模型[J];宁波大学学报(理工版);2009年02期
3 邵雄凯;何瑜;;移动计算环境中基于广播的数据缓存策略[J];计算机应用;2006年02期
4 ;[J];;年期
中国硕士学位论文全文数据库 前2条
1 周超;航班搜索引擎动态缓存策略研究[D];北京交通大学;2016年
2 刘安战;二进制翻译中自修改代码的缓存策略研究[D];华中科技大学;2008年
中国知网广告投放
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62982499
  • 010-62783978