收藏本站
《通信学报》 2011年07期
收藏 | 投稿 | 手机打开
二维码
手机客户端打开本文

基于MapReduce虚拟机的Deep Web数据源发现方法

辛洁  崔志明  赵朋朋  张广铭  鲜学丰  
【摘要】:为了提高Deep Web爬虫发现和搜集数据源的效率,提出了一种融合MapReduce和虚拟化技术实现DeepWeb海量数据挖掘的并行计算方法。基于MapReduce架构提出了一个Deep Web爬虫模型,通过链接过滤分类、页面过滤分类、表单过滤分类等3个MapReduce过程找到Deep Web数据源接口,并利用虚拟机构建单机集群进行性能测试。实验结果显示该方法可以实现大规模数据的并行处理,有效提高爬虫数据源发现的效率,避免网络及物理资源的浪费,验证了云计算技术在Deep Web数据挖掘方面的可行性。

手机知网App
【引证文献】
中国期刊全文数据库 前1条
1 李彬;刘莉莉;;基于MapReduce的Web日志挖掘[J];计算机工程与应用;2012年22期
【参考文献】
中国期刊全文数据库 前1条
1 郑冬冬,赵朋朋,崔志明;Deep Web爬虫研究与设计[J];清华大学学报(自然科学版);2005年S1期
【共引文献】
中国期刊全文数据库 前10条
1 张丽敏;;垂直搜索引擎的主题爬虫策略[J];电脑知识与技术;2010年15期
2 孙立伟;何国辉;吴礼发;;网络爬虫技术的研究[J];电脑知识与技术;2010年15期
3 韩凌;丁其祥;;搜索引擎技术与高校图书馆建设[J];硅谷;2011年23期
4 陈方;谭爱平;成亚玲;文益民;;主题爬虫技术研究综述[J];湖南工业职业技术学院学报;2008年05期
5 荣光;张化祥;;一种Deep Web爬虫的设计与实现[J];计算机与现代化;2009年03期
6 孙彬;王东;李娟;;基于XQuery的Deep Web搜索系统的设计与实现[J];科学技术与工程;2007年16期
7 孟敬;刘寿强;;基于Deep Web Search技术的主题式爬虫模块研究与设计[J];科技导报;2011年21期
8 刘汉兴;刘财兴;;主题爬虫的搜索策略研究[J];计算机工程与设计;2008年12期
9 周二虎;张水平;胡洋;;基于Deep Web检索的查询结果处理技术的应用[J];计算机工程与设计;2010年01期
10 黄聪会;张水平;胡洋;;主题Deep Web爬虫框架研究[J];计算机工程与设计;2010年05期
中国博士学位论文全文数据库 前3条
1 田建伟;面向领域的高质量Deep Web数据集成技术研究[D];武汉大学;2010年
2 黄健斌;基于条件概率图模型的Deep Web数据抽取与集成研究[D];西安电子科技大学;2007年
3 吴春明;Deep Web数据集成关键技术及其在农业领域的应用[D];西南大学;2011年
【同被引文献】
中国期刊全文数据库 前5条
1 杨楠;罗省贤;;Web数据挖掘在云计算平台的实现[J];电脑知识与技术;2011年19期
2 侯建;帅仁俊;侯文;;基于云计算的关联规则挖掘算法[J];化工自动化及仪表;2011年05期
3 程苗;陈华平;;基于Hadoop的Web日志挖掘[J];计算机工程;2011年11期
4 吴庆洪;张颖;马宗民;;蚁群算法综述[J];微计算机信息;2011年03期
5 戎翔;李玲娟;;基于MapReduce的频繁项集挖掘方法[J];西安邮电学院学报;2011年04期
【相似文献】
中国期刊全文数据库 前10条
1 吴乔华;赵赟;;基于虚拟化技术搭建有线电视机房服务器备份平台[J];中国有线电视;2011年07期
2 白国靖;;虚拟化技术在网络服务中的应用研究[J];电子世界;2011年09期
3 郑启龙;汪睿;王向前;;HPMR内存管理模块优化设计[J];计算机系统应用;2011年08期
4 王彩霞;高明;;Deep Web查询接口及其识别算法[J];电脑知识与技术;2011年22期
5 施晓宇;;浅议虚拟化技术在基层检察院信息化建设中的应用[J];信息通信;2011年03期
6 柳燕煌;黄立勤;;云计算环境的并行支持向量机[J];南阳理工学院学报;2011年02期
7 徐琦;;基于Virtuozzo的虚拟化技术在校园网中的应用[J];现代教育技术;2011年06期
8 陈昊;徐建;;基于虚拟化技术的信息系统安全防护框架研究[J];电力信息化;2011年06期
9 李虎;邹鹏;贾焰;周斌;;一种基于MapReduce的分布式文本数据过滤模型研究[J];信息网络安全;2011年09期
10 干俊;;打造虚拟化技术下的中心机房管理模式[J];电脑知识与技术;2011年18期
中国重要会议论文全文数据库 前10条
1 范辉华;祝凤杰;吴伟杰;;虚拟化技术在舰船设计单位中的应用研究[A];2011年CAD/CAM学术交流会议论文集[C];2011年
2 董焱;;基于虚拟化技术的实验教学中心环境构建[A];北京高教学会实验室工作研究会2010年学术研讨会论文集(下册)[C];2010年
3 董焱;;基于虚拟化技术的实验教学中心环境构建[A];北京高校实验室工作研究会2010年年会优秀论文[C];2011年
4 关键;武林博;白瑞强;;桌面虚拟化技术探讨[A];中国新闻技术工作者联合会2011年学术年会论文集(下篇)[C];2011年
5 郭春梅;孟庆森;毕学尧;;服务器虚拟化技术及安全研究[A];第26次全国计算机安全学术交流会论文集[C];2011年
6 李博昊;么志明;冷宝剑;;唐钢利用虚拟化技术实现机房集约化管理[A];2011年河北省冶金信息化自动化年会论文集[C];2011年
7 张雷;张宇;文中领;王永海;;基于虚拟化技术的远程数据镜像系统的实现[A];2010年第16届全国信息存储技术大会(IST2010)论文集[C];2010年
8 李怀龙;;利用虚拟化技术对服务器进行应用整合[A];2011年安徽省智能电网技术论坛论文集[C];2011年
9 王文彬;;虚拟化技术在动力环境设备监控系统中的应用[A];通信电源新技术论坛——2010通信电源学术研讨会论文集[C];2010年
10 戴清杰;苏争光;李永波;高燕;何现青;;云计算探析[A];四川省通信学会2011年学术年会论文集[C];2011年
中国重要报纸全文数据库 前10条
1 乐天 编译;如何用虚拟化技术节电[N];计算机世界;2010年
2 本报记者 姜云飞;虚拟化技术助力科技强警[N];大连日报;2010年
3 ;虚拟化技术能够降低成本并提高效率: 我们是否已经兑现承诺?[N];中国计算机报;2011年
4 迪文;AMD借虚拟化技术增援Opteron[N];中国计算机报;2004年
5 本报记者 吴玉征;操作系统级虚拟化技术更省钱[N];计算机世界;2011年
6 电脑商报记者 张林才;云计算的理想与现实[N];电脑商报;2011年
7 本报记者 张楠;手机虚拟化技术 让智能机降价一半[N];中国计算机报;2010年
8 本报记者 邹大斌;传统桌面向“个人云”迁移[N];计算机世界;2011年
9 吴广;虚拟化技术软硬兼施[N];中国计算机报;2002年
10 重庆 陈宇;“看不见”的角逐[N];电脑报;2011年
中国博士学位论文全文数据库 前10条
1 闫中敏;Deep Web数据获取问题研究[D];山东大学;2010年
2 田建伟;面向领域的高质量Deep Web数据集成技术研究[D];武汉大学;2010年
3 梁浩;Deep Web信息集成架构及相关问题研究[D];吉林大学;2010年
4 赵朋朋;Deep Web信息集成若干关键技术研究[D];苏州大学;2008年
5 方巍;基于本体的Deep Web信息集成关键技术研究[D];苏州大学;2009年
6 马汝辉;基于多核的虚拟化技术研究[D];上海交通大学;2011年
7 潘鹏;Deep Web查询中的不确定性问题研究[D];山东大学;2010年
8 王英;Deep Web数据集成关键技术研究[D];吉林大学;2010年
9 董永权;Deep Web数据集成关键问题研究[D];山东大学;2010年
10 张慧斌;Deep Web查询接口及查询结果抽取研究[D];南开大学;2010年
中国硕士学位论文全文数据库 前10条
1 李妹芳;Deep Web数据源发现和选择研究[D];东北大学;2008年
2 丁宝石;Deep Web数据源分类研究[D];山东大学;2010年
3 张智;基于本体的Deep Web数据源的分类研究[D];南京信息工程大学;2011年
4 戚春超;Deep Web数据源发现与分类研究[D];南京信息工程大学;2011年
5 杜鑫;Deep Web数据源发现与采样研究[D];山东大学;2011年
6 张仲祥;基于领域本体的Deep Web数据源聚焦技术研究[D];广西师范大学;2011年
7 李秀兰;基于结果模式的Deep Web语义标注研究[D];兰州理工大学;2011年
8 张旭;面向Deep Web响应页面的模式识别的研究[D];东北大学;2008年
9 李三义;基于模型匹配的Deep Web数据库分类[D];吉林大学;2010年
10 蔡欣宝;Deep Web数据获取方法研究[D];苏州大学;2010年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62791813
  • 010-62985026