收藏本站
《吉林大学学报(信息科学版)》 2005年01期
收藏 | 投稿 | 手机打开
二维码
手机客户端打开本文

利用超链接信息改进网页爬行器的搜索策略

赫枫龄  左万利  
【摘要】:网页爬行器在Web空间中爬行时,要面对如下两个问题:1)由于Internet上的信息量十分巨大,网络搜索引擎不可能包含整个Web网页;2)受到硬件资源的限制,它所能存储的网页是有限的。爬行器如果按照传统的宽度优先搜索策略在Web空间中爬行,它对所有的网页都采取一视同仁的态度,这样爬行的结果就导致了它所爬行回来的网页质量不高。为此,给出了利用超链接信息改进网页爬行器搜索策略的算法。该算法充分考虑了网页之间的超链接信息,克服了传统的宽度优先搜索策略的盲目性爬行。实验表明,利用该算法爬行得到的网页与某一特定主题相关的网页超过50%。

【引证文献】
中国硕士学位论文全文数据库 前3条
1 林乐彬;Inar网络爬虫的设计与实现[D];哈尔滨工业大学;2006年
2 韩亮;基于本体的消防信息检索系统的研究[D];大连海事大学;2008年
3 操卫平;基于结构化向量空间模型的中文信息检索系统研究与实现[D];北京工业大学;2008年
【参考文献】
中国期刊全文数据库 前1条
1 赫枫龄,陶文学,李凯,周力,左万利;新一代网络搜索引擎系统CHINA_VIVI的实现[J];吉林大学学报(理学版);2003年02期
【共引文献】
中国期刊全文数据库 前4条
1 赫枫龄,左万利;用有向图法解决网页爬行中循环链接问题[J];吉林大学学报(理学版);2004年03期
2 张长利,赫枫龄,左万利;一种基于后缀数组的无词典分词方法[J];吉林大学学报(理学版);2004年04期
3 赫枫龄;左万利;张雪松;;高性能网页索引器JU_Indexer的实现[J];吉林大学学报(理学版);2006年01期
4 祝宇;夏诏杰;聂峰光;郭力;;支持向量机在化学主题爬虫中的应用[J];计算机与应用化学;2006年04期
中国重要会议论文全文数据库 前3条
1 吴丽辉;张凯;张刚;王斌;;天罗Web信息采集系统中的性能优化[A];第二届全国信息检索与内容安全学术会议(NCIRCS-2005)论文集[C];2005年
2 张凯;李魁;张刚;王斌;;基于站点的Web信息采集器研究[A];第二届全国信息检索与内容安全学术会议(NCIRCS-2005)论文集[C];2005年
3 刘莉;肖诗斌;王涛;施水才;;基于RSS的分布式博客搜索引擎设计[A];第三届全国信息检索与内容安全学术会议论文集[C];2007年
中国博士学位论文全文数据库 前4条
1 贾自艳;Web信息智能获取若干关键问题研究[D];中国科学院研究生院(计算技术研究所);2004年
2 吴丽辉;个性化的Web信息采集技术研究[D];中国科学院研究生院(计算技术研究所);2005年
3 王辉;基于质心具有增量性质的主题爬行[D];吉林大学;2007年
4 宗校军;中文网页定题采集及分类研究[D];华中科技大学;2006年
中国硕士学位论文全文数据库 前10条
1 姚斌;设计和实现一个主题搜索引擎[D];内蒙古大学;2004年
2 王军;中文搜索引擎的设计与实现[D];华中科技大学;2004年
3 丁一;基于Web挖掘的个性化推荐服务研究[D];华中科技大学;2004年
4 何华;搜索引擎中的数据存储问题研究[D];浙江大学;2005年
5 胡卓颖;专题型网页搜集器关键算法的研究及实现[D];江西师范大学;2005年
6 欧歌;专题式Web信息获取技术研究[D];北京化工大学;2005年
7 刘宇波;面向可下载资源的WEB搜索引擎的设计与实现[D];湖南大学;2005年
8 周晔;一种增量式并行Web信息采集系统[D];暨南大学;2005年
9 姜杰;专业搜索引擎分布式Robot设计研究[D];南京师范大学;2005年
10 翟凤红;商品搜索引擎系统[D];吉林大学;2005年
【同被引文献】
中国期刊全文数据库 前10条
1 吴安清;张颖江;涂军;;主题搜索ROBOT综合爬行策略的研究[J];武汉理工大学学报;2006年02期
2 汪涛,樊孝忠,顾益军,刘林;基于概念分析的主题爬虫设计[J];北京理工大学学报;2004年10期
3 王红梅,朱洪秀,王凌;对中文搜索引擎未来发展的探讨[J];东北电力学院学报;2001年04期
4 韩立新,陈贵海,谢立;一个面向Internet的个性化信息检索系统模型[J];电子学报;2002年02期
5 彭波,李晓明;搜索引擎倒排文件的一种分块组织技术[J];电子学报;2005年02期
6 刘挺,吴岩,王开铸;最大概率分词问题及其解法[J];哈尔滨工业大学学报;1998年06期
7 徐家树,覃征,陈伟雄,步建华;Web页面相关度算法[J];华南理工大学学报(自然科学版);2004年S1期
8 张力生,李生林;海量数据装入技术研究[J];后勤工程学院学报;2004年02期
9 郭艳华,周昌乐;一种汉语语句依存关系网协动生成方法研究[J];杭州电子工业学院学报;2000年04期
10 文坤梅,卢正鼎,叶卫国,金莉;搜索引擎中页面更新策略的分析与改进[J];华中科技大学学报(自然科学版);2002年12期
中国重要会议论文全文数据库 前1条
1 冯少卿;都云程;施水才;;基于模板的网页主题信息抽取[A];第三届全国信息检索与内容安全学术会议论文集[C];2007年
中国博士学位论文全文数据库 前4条
1 杜亚军;搜索引擎智能行为的研究及实现[D];西南交通大学;2005年
2 彭涛;面向专业搜索引擎的主题爬行技术研究[D];吉林大学;2007年
3 王辉;基于质心具有增量性质的主题爬行[D];吉林大学;2007年
4 胡燕;基于Web信息抽取的专业知识获取方法研究[D];武汉理工大学;2007年
中国硕士学位论文全文数据库 前10条
1 李学勇;基于巩固学习的网络蜘蛛搜索策略研究[D];湖南大学;2003年
2 潘照明;智能中文搜索引擎若干关键技术的研究与实现[D];浙江大学;2006年
3 苏旋;分布式网络爬虫技术的研究与实现[D];哈尔滨工业大学;2006年
4 林乐彬;Inar网络爬虫的设计与实现[D];哈尔滨工业大学;2006年
5 董占兵;基于形式概念分析的主题搜索策略研究[D];西华大学;2007年
6 宫玲;概念格建格算法的研究[D];辽宁师范大学;2007年
7 黄晓彤;高可靠性海量公安基础数据查询分析系统的设计与实现[D];同济大学;2007年
8 张秉强;数据库优化技术在海量数据下的研究与应用[D];同济大学;2007年
9 傅士光;基于主题的搜索引擎的研究与实现[D];北京交通大学;2007年
10 罗丽俊;中文信息处理中若干技术的研究与实现[D];辽宁科技大学;2008年
【二级引证文献】
中国硕士学位论文全文数据库 前1条
1 陈奋;过滤型网络爬虫的研究与设计[D];厦门大学;2007年
【二级参考文献】
中国期刊全文数据库 前2条
1 雷鸣,王建勇,赵江华,单松巍,陈葆珏;第三代搜索引擎与天网二期[J];北京大学学报(自然科学版);2001年05期
2 杨桂珍;多元搜索引擎研究[J];情报理论与实践;2001年04期
【相似文献】
中国期刊全文数据库 前10条
1 冷孤月;;巧用快捷键网页轻松换[J];电脑知识与技术(经验技巧);2011年06期
2 贺全荣;;轻松解锁网页 随意复制粘贴[J];电脑迷;2011年12期
3 阚文浩;;巧制网页 在淘宝购物中赚“回扣”[J];电脑爱好者;2011年11期
4 黄伟光;;网页木马及其防范[J];保密科学技术;2011年05期
5 阎皓的皓;;选择性屏蔽网页中的音乐[J];电脑迷;2011年18期
6 ;教你几招识别和防御Web网页木马好方法[J];计算机与网络;2010年Z1期
7 曹春华;;想让更多朋友加入你的群吗[J];电脑爱好者;2011年05期
8 ;全球等待[J];长三角;2010年Z1期
9 kikier;;随时随地 记录一切[J];电脑迷;2011年15期
10 毕超;;找回网页图片添加为QQ表情功能[J];电脑爱好者;2011年05期
中国重要会议论文全文数据库 前10条
1 维尼拉·木沙江;吐尔洪·吾司曼;;维、哈、柯文搜索引擎中网页爬行器的设计与实现[A];少数民族青年自然语言处理技术研究与进展——第三届全国少数民族青年自然语言信息处理、第二届全国多语言知识库建设联合学术研讨会论文集[C];2010年
2 冯艳卉;洪宇;颜振祥;姚建民;朱巧明;;基于搜索引擎的双语混合网页识别新方法[A];第六届全国信息检索学术会议论文集[C];2010年
3 江志纲;丁增喜;刘洋;王大玲;鲍玉斌;于戈;;基于面向属性规约方法的网页和超链的分类[A];第十九届全国数据库学术会议论文集(研究报告篇)[C];2002年
4 孔辉;梁洪亮;辛阳;杨义先;陈林顺;;一种高性能的网页篡改检测与恢复机制[A];2010年全国通信安全学术会议论文集[C];2010年
5 刘晖;赵萍;;新疆环境气象中心网站的总体规划及建设[A];信息技术在气象领域的开发应用论文集(一)[C];2005年
6 王玉龙;叶新铭;李秀华;;网页优化策略的模糊C均值(FCM)聚类算法研究(英文)[A];第二十二届中国数据库学术会议论文集(研究报告篇)[C];2005年
7 郑传新;谢筱惠;;基于网页技术的决策气象服务信息系统[A];2002年广西气象电子专业技术交流会论文集[C];2002年
8 吴建军;;谈网页设计的艺术性表现[A];经天纬地——全国测绘科技信息网中南分网第十九次学术交流会优秀论文选编[C];2005年
9 陈小飞;王轶彤;冯小军;;一种基于网页质量的PageRank算法改进[A];第26届中国数据库学术会议论文集(B辑)[C];2009年
10 唐雅茜;朱海波;黎玲;;破解恶意网页十大招[A];2008年广西气象学会学术年会论文集[C];2008年
中国重要报纸全文数据库 前10条
1 范德生 邓亚玲;守住网页的秘密[N];电脑报;2005年
2 记者 李佳;一成政府网页被恶意“暗链”[N];长江日报;2010年
3 天津 李鸣;IE在保存网页时的Bug[N];电脑报;2002年
4 四川 张晋飞;网页中的“每日一帖”[N];电脑报;2002年
5 黄杰云;网页保存随心所欲[N];中国电脑教育报;2004年
6 ;弹指开启多个网页[N];大众科技报;2000年
7 湖北 费飞波;在网页加入分级代码[N];电脑报;2003年
8 吉林 六子;网页可以这样存[N];电脑报;2003年
9 湖北 崔新潮;网页不能正常显示的处理[N];电子报;2004年
10 TOSKY;轻松制作FAQ网页[N];中国电脑教育报;2004年
中国博士学位论文全文数据库 前10条
1 荆涛;面向领域网页的语义标注若干问题研究[D];吉林大学;2011年
2 覃健诚;网络多层纵深防御体系的关键技术研究[D];北京邮电大学;2011年
3 朱征宇;Web资源组织与服务性能研究[D];重庆大学;2003年
4 吴瑞;模糊和粗糙环境下的网络用户浏览模式研究[D];天津大学;2006年
5 刘竟;面向概念检索的农史信息门户的设计与构建[D];南京农业大学;2008年
6 江开忠;上下文感知的Web搜索关键技术研究[D];华东师范大学;2008年
7 陈治平;智能搜索引擎理论与应用研究[D];湖南大学;2003年
8 李东方;Web 2.0环境下互联网信息过滤理论与方法研究[D];中国科学技术大学;2009年
9 张健毅;大规模反钓鱼识别引擎关键技术研究[D];北京邮电大学;2012年
10 黄九鸣;面向舆情分析和属性发现的网络文本挖掘技术研究[D];国防科学技术大学;2011年
中国硕士学位论文全文数据库 前10条
1 孙学刚;面向奥运的中文网页信息获取方法的初步研究[D];清华大学;2004年
2 张晓宇;农业网站中垃圾网页过滤方法的研究[D];新疆大学;2011年
3 李琦;基于层次聚类和网页关系的人名消歧[D];山东大学;2012年
4 殷晟;具有页面更新机制的网页爬行器的设计与实现[D];吉林大学;2008年
5 邱鹏;移动终端网页转换系统的设计与实现[D];大连理工大学;2012年
6 涂涛;嵌入式浏览器网页排版技术的研究与实现[D];华中科技大学;2004年
7 马千驰;基于搜索词的网页结果聚类研究与应用[D];华南理工大学;2010年
8 颜振祥;互联网双语资源挖掘关键技术研究[D];苏州大学;2010年
9 郭东方;基于BHO技术的恶意网页行为检测技术研究与实现[D];华中科技大学;2011年
10 张殿芳;基于网页分块的论坛爬虫关键技术研究[D];哈尔滨工业大学;2009年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62791813
  • 010-62985026