收藏本站
收藏 | 投稿 | 手机打开
二维码
手机客户端打开本文

基于任务合并的并行大数据清洗过程优化

杨东华  李宁宁  王宏志  李建中  高宏  
【摘要】:数据质量问题会对大数据的应用产生致命影响,因此需要对存在数据质量问题的大数据进行清洗.MapReduce编程框架可以利用并行技术实现高可扩展性的大数据清洗,然而,由于缺乏有效的设计,在基于MapReduce的数据清洗过程中存在计算的冗余,导致性能降低.因此文中的目的是对并行数据清洗过程进行优化从而提高效率.通过研究,作者发现数据清洗中一些任务往往都运行在同一输入文件上或者利用同样的运算结果,基于该发现文中提出了一种新的优化技术——基于任务合并的优化技术.针对冗余计算和利用同一输入文件的简单计算进行合并,通过这种合并可以减少MapReduce的轮数从而减少系统运行的时间,最终达到系统优化的目标.文中针对数据清洗过程中多个复杂的模块进行了优化,具体来说分别对实体识别模块、不一致数据修复模块和缺失值填充模块进行了优化.实验结果表明,文中提出的策略可以有效提高数据清洗的效率.

知网文化
【相似文献】
中国期刊全文数据库 前20条
1 张武;刘波;;一种基于规则的交互式数据清洗框架的设计[J];微计算机应用;2009年10期
2 曹建军;刁兴春;陈爽;邵衍振;;数据清洗及其一般性系统框架[J];计算机科学;2012年S3期
3 田伟;殷淑娥;;浅析数据清洗[J];计算机光盘软件与应用;2013年11期
4 郭志懋,周傲英;数据质量和数据清洗研究综述[J];软件学报;2002年11期
5 邓中国,周奕辛;数据清洗技术研究[J];山东科技大学学报(自然科学版);2004年02期
6 唐懿芳,钟达夫,张师超;数据清洗前的预处理方法[J];广西科学;2005年02期
7 孟坚,董逸生,王永利;一种基于规则的交互式数据清洗技术[J];微机发展;2005年04期
8 包从剑;李星毅;施化吉;;可扩展和可交互的数据清洗系统[J];计算机技术与发展;2007年07期
9 王曰芬;章成志;张蓓蓓;吴婷婷;;数据清洗研究综述[J];现代图书情报技术;2007年12期
10 王咏梅;嵇晓;汪恒杰;冯安平;;面向多数据源的数据清洗关键技术的研究[J];科技资讯;2009年01期
11 陈亚楠;廖廷悟;陈富节;;浅谈数据清洗[J];时代金融;2009年09期
12 杨旭明;叶福媛;朱莺;刘嘉立;;针刺治疗青少年近视眼中的数据清洗技术[J];医学信息(上旬刊);2011年04期
13 叶鸥;张璟;李军怀;;中文数据清洗研究综述[J];计算机工程与应用;2012年14期
14 宋金玉;陈爽;郭大鹏;王内蒙;;数据质量及数据清洗方法[J];指挥信息系统与技术;2013年05期
15 蒋勋;刘喜文;;大数据环境下面向知识服务的数据清洗研究[J];图书与情报;2013年05期
16 郭志懋,俞荣华,田增平,周傲英;一个可扩展的数据清洗系统[J];计算机工程;2003年03期
17 唐懿芳,钟达夫,严小卫;基于聚类模式的数据清洗技术[J];计算机应用;2004年05期
18 武小平;左春;;基于工作流程的数据清洗系统[J];计算机工程与设计;2008年08期
19 陈春颖;;数据清洗技术在期刊元数据整合中的应用[J];图书情报知识;2009年06期
20 王立荣;郭强;付冉冉;;基金管理投资研究系统数据清洗及质量控制[J];武汉理工大学学报(信息与管理工程版);2011年05期
中国重要会议论文全文数据库 前10条
1 俞荣华;郭志懋;田增平;周傲英;;一个可扩展的数据清洗系统[A];第十八届全国数据库学术会议论文集(技术报告篇)[C];2001年
2 崔运钏;刘连忠;;一种可扩展的数据清洗系统的设计与实现[A];2006中国控制与决策学术年会论文集[C];2006年
3 汪爱民;;宝钢全流程合同数据清洗与组织方案的设计和应用[A];全国冶金自动化信息网2014年会论文集[C];2014年
4 蒋勇青;杨奕虹;杨贺;;论数据清洗对信息检索质量的影响及清洗方法[A];2011年中国索引学会年会暨成立二十周年庆典论文集[C];2011年
5 李智;宋杰;冷芳玲;王大玲;鲍玉斌;于戈;;一种基于构件扩展的数据清洗框架[A];第二十五届中国数据库学术会议论文集(一)[C];2008年
6 高淑娟;鲍玉斌;江志纲;王大玲;于戈;;一种基于最小风险贝叶斯决策的数据清洗策略[A];第十九届全国数据库学术会议论文集(研究报告篇)[C];2002年
7 王妍;石鑫;宋宝燕;;基于伪事件的RFID数据清洗方法[A];第26届中国数据库学术会议论文集(B辑)[C];2009年
8 李晓静;谷峪;吕雁飞;王艳秋;于戈;;基于动态事件概率模型的高效RFID数据清洗算法[A];第二十五届中国数据库学术会议论文集(二)[C];2008年
9 肖英治;陈红;;带数据清洗功能的数据预处理系统PW-ETL的设计与实现[A];第二十一届中国数据库学术会议论文集(研究报告篇)[C];2004年
10 赵之慧;;专利数据加工[A];2014年中华全国专利代理人协会年会第五届知识产权论坛论文(第二部分)[C];2014年
中国博士学位论文全文数据库 前1条
1 樊华;面向物联网的RFID不确定数据清洗与存储技术研究[D];国防科学技术大学;2013年
中国硕士学位论文全文数据库 前10条
1 高宝;不确定性RFID数据清洗算法研究[D];南京信息工程大学;2015年
2 叶晨;基于众包的数据清洗关键技术的研究[D];哈尔滨工业大学;2015年
3 张联超;基于本体的数据清洗系统框架研究[D];南京航空航天大学;2008年
4 朱前磊;电子政务系统中海量数据清洗方法研究与应用[D];东华大学;2010年
5 吴俊;基于神经网络的电力负荷数据清洗模型研究[D];大连理工大学;2010年
6 梁文斌;数据清洗技术的研究及其应用[D];苏州大学;2005年
7 唐懿芳;基于聚类模式的数据清洗技术[D];广西师范大学;2003年
8 伍江磊;数据清洗在贵州地税省级数据集中项目中的研究与应用[D];湖北大学;2012年
9 李亚坤;基于网络的数据清洗技术研究[D];哈尔滨工业大学;2013年
10 王武;数据清洗方法研究及工具设计[D];上海交通大学;2009年
中国重要报纸全文数据库 前1条
1 中国人民财产保险股份有限公司信息技术部副总经理 鹿慧 编译;在SOA中创建独立的数据清洗服务[N];计算机世界;2009年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62982499
  • 010-62783978