收藏本站
《电子学报》 2002年S1期
收藏 | 投稿 | 手机打开
二维码
手机客户端打开本文

分布式Web Crawler的研究:结构、算法和策略

叶允明  于水  马范援  宋晖  张岭  
【摘要】:本文介绍了一个大型分布式Web Crawler系统——Igloo 1.2版。它采用分布式的系统结构,通过我们设计的二级哈希映射算法使系统可以进行高效的任务分割,并且系统的规模动态可扩展.爬行网页的质量是评价Crawler的一个重要指标,Igloo以PageRank值作为网页质量评价的标准,从而提高了爬行质量.加快爬行速度的关键是如何解除Crawler系统中的性能瓶颈,本文对此也作了详细的讨论,并提出了一种基于“滞后合并”策略的UBL数据库存取方法.实验表明,Igloo在保持高性能的同时能快速爬行到高质量的网页.

手机知网App
【引证文献】
中国期刊全文数据库 前10条
1 张丽敏;;垂直搜索引擎的主题爬虫策略[J];电脑知识与技术;2010年15期
2 刘世涛;;简析搜索引擎中网络爬虫的搜索策略[J];阜阳师范学院学报(自然科学版);2006年03期
3 许笑;张伟哲;张宏莉;方滨兴;;广域网分布式爬虫中的Agent协同与Web划分研究[J];高技术通讯;2010年03期
4 张洪斌;危胜军;;基于超图的并行信息采集系统任务划分方法[J];广西师范大学学报(自然科学版);2008年01期
5 孟祥乾;叶允明;邓斌;;基于流水线负载平衡模型的并行爬虫研究[J];计算机工程;2009年02期
6 白鹤;汤迪斌;王劲林;;分布式多主题网络爬虫系统的研究与实现[J];计算机工程;2009年19期
7 张林才;梁正友;王红霞;;基于ProActive的P-Spider1.0改进[J];计算机工程;2010年17期
8 梁正友;张林才;;基于Rabin指纹方法的URL去重算法[J];计算机应用;2008年S2期
9 吴黎兵;柯亚林;何炎祥;刘楠;;分布式网络爬虫的设计与实现[J];计算机应用与软件;2011年11期
10 许笑;张伟哲;张宏莉;方滨兴;;广域网分布式Web爬虫[J];软件学报;2010年05期
中国重要会议论文全文数据库 前2条
1 朴星海;赵铁军;郑德权;张迪;;面向Blog的网络爬行器设计与实现[A];中文信息处理前沿进展——中国中文信息学会二十五周年学术会议论文集[C];2006年
2 维尼拉·木沙江;吐尔洪·吾司曼;;维、哈、柯文搜索引擎中网页爬行器的设计与实现[A];少数民族青年自然语言处理技术研究与进展——第三届全国少数民族青年自然语言信息处理、第二届全国多语言知识库建设联合学术研讨会论文集[C];2010年
中国博士学位论文全文数据库 前2条
1 王辉;基于质心具有增量性质的主题爬行[D];吉林大学;2007年
2 宗校军;中文网页定题采集及分类研究[D];华中科技大学;2006年
中国硕士学位论文全文数据库 前10条
1 赵翔;网站信息按需采集系统中爬虫子系统的设计与实现[D];复旦大学;2011年
2 魏一帆;分布式信息采集系统Web划分技术研究[D];哈尔滨工业大学;2010年
3 王磊;基于Web数据挖掘的搜索引擎设计与实现[D];解放军信息工程大学;2010年
4 孙守兴;基于可扩展哈希算法的并行爬虫动态负载均衡实现[D];哈尔滨工业大学;2010年
5 杨颂;面向电子商务网站的增量爬虫设计与实现[D];湖南大学;2010年
6 吴东华;Web信息获取技术研究[D];南京理工大学;2004年
7 刘宾;基于移动Agent的主题搜索引擎研究[D];上海海事大学;2006年
8 赵钦;并行爬行器的架构与优化策略[D];北京工业大学;2006年
9 徐金雷;专业搜索引擎的排序算法研究[D];南京师范大学;2007年
10 张维维;搜索引擎的研究与实现[D];长春理工大学;2008年
【共引文献】
中国期刊全文数据库 前10条
1 赫枫龄,左万利;利用超链接信息改进网页爬行器的搜索策略[J];吉林大学学报(信息科学版);2005年01期
2 吴永辉;王晓龙;丁宇新;徐军;郭鸿志;;基于主题的自适应、在线网络热点发现方法及新闻推荐系统[J];电子学报;2010年11期
3 徐小龙;王汝传;;基于智能Agent的多维权值信息检索模型[J];电子与信息学报;2008年02期
4 许笑;张伟哲;张宏莉;方滨兴;;广域网分布式爬虫中的Agent协同与Web划分研究[J];高技术通讯;2010年03期
5 黄皓凌;张凡;;6搜-高效的专用IPv6搜索引擎[J];电子设计工程;2011年23期
6 刘彤彤;伍小芹;;融入权威性与相关性的PageRank算法[J];信息技术;2008年11期
7 郭来德;刘辉林;刘兰哲;王光兴;;农业信息搜索引擎设计与实现[J];河北工程大学学报(自然科学版);2007年03期
8 钱功伟;倪林;曹荣;;基于网页链接和内容分析的改进PageRank算法[J];计算机工程与应用;2007年21期
9 李盛韬;余智华;程学旗;白硕;;Web信息采集研究进展[J];计算机科学;2003年02期
10 周德懋;李舟军;;高性能网络爬虫:研究综述[J];计算机科学;2009年08期
中国重要会议论文全文数据库 前5条
1 彭亮;卓新建;黄玮;范文庆;;基于网络爬虫的XSS漏洞扫描系统的设计与实现[A];第十三届中国科协年会第11分会场-中国智慧城市论坛论文集[C];2011年
2 吴丽辉;张凯;张刚;王斌;;天罗Web信息采集系统中的性能优化[A];第二届全国信息检索与内容安全学术会议(NCIRCS-2005)论文集[C];2005年
3 张凯;李魁;张刚;王斌;;基于站点的Web信息采集器研究[A];第二届全国信息检索与内容安全学术会议(NCIRCS-2005)论文集[C];2005年
4 刘莉;肖诗斌;王涛;施水才;;基于RSS的分布式博客搜索引擎设计[A];第三届全国信息检索与内容安全学术会议论文集[C];2007年
5 刘宝良;李建中;;crlib:可交互异构Crawler框架的设计与实现[A];第二十届全国数据库学术会议论文集(技术报告篇)[C];2003年
中国博士学位论文全文数据库 前10条
1 张长利;面向特定领域的互联网舆情分析技术研究[D];吉林大学;2011年
2 王修君;高效数据流和海量文本处理算法研究[D];中国科学技术大学;2011年
3 吴超;信息检索中top-k问题的并行算法及优化研究[D];中国科学技术大学;2011年
4 李常宝;基于索引的web服务发现研究[D];北京邮电大学;2011年
5 吴永辉;面向专业领域的网络信息采集及主题检测技术研究与应用[D];哈尔滨工业大学;2010年
6 许笑;分布式Web信息采集关键技术研究[D];哈尔滨工业大学;2011年
7 寇月;Deep Web实体搜索的关键技术研究[D];东北大学;2009年
8 贾自艳;Web信息智能获取若干关键问题研究[D];中国科学院研究生院(计算技术研究所);2004年
9 吴丽辉;个性化的Web信息采集技术研究[D];中国科学院研究生院(计算技术研究所);2005年
10 王辉;基于质心具有增量性质的主题爬行[D];吉林大学;2007年
中国硕士学位论文全文数据库 前10条
1 翁岩青;网页抓取策略研究[D];哈尔滨工程大学;2010年
2 王思丽;藏文网页自动发现与采集技术研究[D];西北民族大学;2010年
3 王晓地;Web信息采集技术研究与实现[D];华南理工大学;2010年
4 陶小波;电子就业文本挖掘系统关键技术研究与应用[D];浙江工商大学;2011年
5 戚学磊;基于Lucene的站内搜索引擎技术的研究与应用[D];太原理工大学;2011年
6 李恒训;网络论坛采集及热点话题发现研究[D];首都师范大学;2011年
7 杨华;网络信息动态采集策略的研究及应用[D];河北科技大学;2011年
8 李莎莎;增量式Web信息采集与信息提取系统的研究与实现[D];武汉理工大学;2011年
9 孙文婷;基于语义的网上股评信息的提取研究[D];武汉理工大学;2011年
10 林捷;主题网络爬虫的研究和实现[D];武汉理工大学;2011年
【同被引文献】
中国期刊全文数据库 前10条
1 卢效峰,郑权;基于用户行为分析的搜索引擎模型[J];北方工业大学学报;2004年03期
2 雷鸣,王建勇,赵江华,单松巍,陈葆珏;第三代搜索引擎与天网二期[J];北京大学学报(自然科学版);2001年05期
3 曹元大,贺海军,涂哲明;中文Web文档全文检索系统的设计及实现[J];北京理工大学学报;2002年01期
4 汪涛,樊孝忠,顾益军,刘林;基于概念分析的主题爬虫设计[J];北京理工大学学报;2004年10期
5 王岚,张鹏祥;基于Web的数据挖掘研究[J];长春师范学院学报;2005年07期
6 吕安民,林宗坚,李成名;数据挖掘和知识发现的技术方法[J];测绘科学;2000年04期
7 蔡旭晖,刘泽星;Internet信息检索与计算机基础教学[J];长沙铁道学院学报(社会科学版);2004年03期
8 金益;;基于“网络蜘蛛原理”的搜索引擎技术剖析[J];电脑学习;2007年05期
9 彭建荣;罗永会;;搜索引擎的基本原理及发展趋势[J];电脑知识与技术;2006年02期
10 李名智;中文搜索引擎:现状、问题及对策[J];大学图书馆学报;1998年06期
中国重要会议论文全文数据库 前1条
1 刘悦;张刚;王斌;许洪波;;查询相关链接分析算法优化策略研究[A];全国第八届计算语言学联合学术会议(JSCL-2005)论文集[C];2005年
中国博士学位论文全文数据库 前1条
1 陈定权;自动主题搜索的应用研究[D];中国科学院研究生院(文献情报中心);2003年
中国硕士学位论文全文数据库 前10条
1 张程;基于智能Agent的搜索引擎研究[D];重庆大学;2002年
2 张海燕;基于分词的中文文本自动分类研究与实现[D];湖南大学;2002年
3 袁宏;基于移动Agent的中文信息搜索引擎系统模型的研究[D];沈阳工业大学;2003年
4 王颖;异构系统的任务调度和负载平衡研究[D];湖南大学;2006年
5 郭鸿志;搜索引擎中并行文件系统的研究[D];哈尔滨工业大学;2006年
6 赵钦;并行爬行器的架构与优化策略[D];北京工业大学;2006年
7 万至臻;基于MapReduce模型的并行计算平台的设计与实现[D];浙江大学;2008年
8 朱珠;基于Hadoop的海量数据处理模型研究和应用[D];北京邮电大学;2008年
9 薛宇星;基于Herixtrix和Lucene的Web站内搜索系统[D];西安电子科技大学;2008年
10 黄正鹏;分布式搜索引擎的设计与实现[D];华东师范大学;2008年
【二级引证文献】
中国期刊全文数据库 前10条
1 陈悦;陈运;杨义先;胡迪;;基于遗传算法的聚焦爬虫搜索策略设计与研究[J];成都信息工程学院学报;2011年05期
2 张超;闫宏印;;多线程网络爬虫的设计与实现[J];电脑开发与应用;2012年06期
3 王岩;;搜索引擎中网络爬虫技术的发展[J];电信快报;2008年10期
4 吴建;;基于Lucene的校园网搜索引擎的设计与实现[J];湖南工程学院学报(自然科学版);2012年02期
5 梅松;;政府网络舆情监控系统的实现[J];信息技术;2011年09期
6 陈建国;;基于Web结构的网站新闻采集系统的设计与实现[J];井冈山大学学报(自然科学版);2012年02期
7 裴艳霞;刘椿年;;面向手机3D动画自动生成的中文命名实体识别[J];计算机工程与应用;2012年13期
8 王海龙;胡景芝;赵朋朋;崔志明;;基于搜索引擎的Deep Web数据源发现[J];计算机工程;2011年05期
9 李庆诚;左珊珊;董振华;张金;;中文RSS信息自动检索与分类研究[J];计算机工程;2011年06期
10 龚秋艳;陈良育;曾振柄;;简单高效的URL消重的方法[J];计算机应用;2010年S1期
中国重要会议论文全文数据库 前2条
1 韩子扬;李贵;李征宇;王凤英;;基于分布式结构的Deep Web结构化数据抽取系统[A];第九届沈阳科学学术年会论文集[C];2012年
2 韩子扬;李贵;李征宇;王凤英;;基于分布式结构的Deep Web结构化数据抽取系统[A];第九届沈阳科学学术年会论文集(信息科学与工程技术分册)[C];2012年
中国博士学位论文全文数据库 前1条
1 王肃;基于多Agent的突发事件信息智能监测系统研究[D];北京邮电大学;2011年
中国硕士学位论文全文数据库 前10条
1 吕信;激光能量沉积光路追踪法及其并行化[D];中国工程物理研究院;2009年
2 吴迪;高校毕业生就业推荐系统的设计与开发[D];大连理工大学;2010年
3 黄静;基于移动代理Aglets的电子商务平台研究与开发[D];天津理工大学;2010年
4 王思丽;藏文网页自动发现与采集技术研究[D];西北民族大学;2010年
5 陈凯;搜索引擎有关排序算法研究[D];武汉理工大学;2011年
6 白瑾;基于群体特性的搜索方法研究[D];武汉理工大学;2011年
7 林捷;主题网络爬虫的研究和实现[D];武汉理工大学;2011年
8 华大年;手机产品信息垂直搜索引擎系统设计与开发[D];武汉理工大学;2011年
9 徐东丽;基于Crawler的Web服务搜索研究[D];大连海事大学;2011年
10 周兵;基于分布式精准采集的垂直搜索引擎的研究与实现[D];北京邮电大学;2011年
【相似文献】
中国期刊全文数据库 前10条
1 邵斐;孙济庆;;一种适用于动态网页的网络蜘蛛爬行策略研究[J];情报杂志;2007年05期
2 陈瑜芳;何克右;;网络蜘蛛的设计与实现[J];现代计算机(专业版);2009年11期
3 尹江;尹治本;黄洪;;网络爬虫效率瓶颈的分析与解决方案[J];计算机应用;2008年05期
4 杨颂;欧阳柳波;;基于Heritrix的面向电子商务网站增量爬虫研究[J];软件导刊;2010年07期
5 罗林波;陈绮;吴清秀;;基于Shark-Search和Hits算法的主题爬虫研究[J];计算机技术与发展;2010年11期
6 周宁,严亚兰,刘玮,张芳芳;网络信息资源构建与维护方法研究[J];图书情报知识;2003年05期
7 曾水香;罗林波;;基于改进Hits算法的多主题爬虫研究与实现[J];福建电脑;2010年05期
8 朱炜,李俊,王超,潘金贵;一个自动发现确定主题下资源的系统[J];计算机应用研究;2004年11期
9 任小燕;康小军;;面向教育资源的垂直搜索引擎应用研究[J];软件导刊;2007年13期
10 郭浩;陆余良;刘金红;;一种基于状态转换图的Ajax爬行算法[J];计算机应用研究;2009年11期
中国重要会议论文全文数据库 前7条
1 刘宝良;李建中;;crlib:可交互异构Crawler框架的设计与实现[A];第二十届全国数据库学术会议论文集(技术报告篇)[C];2003年
2 蔡欣宝;陈洪平;赵朋朋;崔志明;;一种Deep Web聚焦爬虫爬行策略[A];2009年全国开放式分布与并行计算机学术会议论文集(上册)[C];2009年
3 ;A Framework of Deep Web Crawler[A];第二十七届中国控制会议论文集[C];2008年
4 王上;于海;王钲旋;;Deep Web垂直搜索引擎设计与实现[A];第26届中国数据库学术会议论文集(B辑)[C];2009年
5 吴晨生;刘彦君;张鲁冀;董晓晴;;科普搜索的研究与实现[A];数字博物馆研究与实践(2009)[C];2010年
6 李栋;史晓东;;对搜索引擎中倒排索引更新策略的研究和改进[A];第二十二届中国数据库学术会议论文集(技术报告篇)[C];2005年
7 刘兵;胡学钢;;基于多链接分析的主题爬虫设计实现[A];全国第20届计算机技术与应用学术会议(CACIS·2009)暨全国第1届安全关键技术与应用学术会议论文集(上册)[C];2009年
中国重要报纸全文数据库 前3条
1 福建 陈旭波;两招解决站内搜索[N];电脑报;2002年
2 严河;插件的制作[N];电脑报;2003年
3 飘零雪;MSN Messenger深度历险[N];中国电脑教育报;2004年
中国博士学位论文全文数据库 前2条
1 叶育鑫;语义Web下的知识搜索及其核心技术[D];吉林大学;2010年
2 张长利;面向特定领域的互联网舆情分析技术研究[D];吉林大学;2011年
中国硕士学位论文全文数据库 前10条
1 彭强强;基于概念背景图的主题爬行策略研究[D];西华大学;2010年
2 高兆琼;基于增量学习的主题爬行策略研究[D];西华大学;2010年
3 祁鹏;基于移动搜索的Spider爬行策略的研究和实现[D];成都理工大学;2010年
4 刘朋;基于Lucene的垂直搜索引擎关键技术的研究应用[D];武汉理工大学;2009年
5 王攀;主题搜索引擎的设计与实现[D];华中科技大学;2007年
6 姚忠存;锚文本增量主题爬行[D];吉林大学;2007年
7 胡炜;分布式Web Crawler系统研究与实现[D];江西理工大学;2010年
8 陈丛丛;主题爬虫搜索策略研究[D];山东大学;2009年
9 周文彬;一个Web本体的采集系统[D];东南大学;2006年
10 任妤;基于Nutch的科技主题搜索引擎Crawler的研究与实现[D];内蒙古科技大学;2011年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62791813
  • 010-62985026