收藏本站
《计算机应用》 2005年09期
收藏 | 投稿 | 手机打开
二维码
手机客户端打开本文

聚焦爬虫技术研究综述

周立柱  林玲  
【摘要】:因特网的迅速发展对万维网信息的查找与发现提出了巨大的挑战。对于大多用户提出的与主题或领域相关的查询需求,传统的通用搜索引擎往往不能提供令人满意的结果网页。为了克服通用搜索引擎的以上不足,提出了面向主题的聚焦爬虫的研究。至今,聚焦爬虫已成为有关万维网的研究热点之一。文中对这一热点研究进行综述,给出聚焦爬虫(Focused Crawler)的基本概念,概述其工作原理;并根据研究的发展现状,对聚焦爬虫的关键技术(抓取目标描述,网页分析算法和网页搜索策略等)作系统介绍和深入分析。在此基础上,提出聚焦爬虫今后的一些研究方向,包括面向数据分析和挖掘的爬虫技术研究,主题的描述与定义,相关资源的发现,W eb数据清洗,以及搜索空间的扩展等。

【引证文献】
中国期刊全文数据库 前10条
1 孙素芬;罗长寿;张峻峰;于峰;张树亮;;农业信息资源整合系统研究与应用[J];安徽农业科学;2007年22期
2 汪斌;张云伟;刘健;陈晶;;一种面向农业信息主题网络爬虫的设计[J];安徽农业科学;2009年20期
3 廉捷;刘云;;网络舆情中的信息预处理与自动摘要算法[J];北京交通大学学报;2010年05期
4 任斌;毛应爽;;基于本体的主动学习主题爬行的研究与实现[J];长春工程学院学报(自然科学版);2011年01期
5 武昊;廖安平;何超英;侯东阳;;基于主题相关度的地理信息Web服务爬虫研究[J];地理与地理信息科学;2012年02期
6 张超;闫宏印;;多线程网络爬虫的设计与实现[J];电脑开发与应用;2012年06期
7 吴聪聪;赵建立;;基于本体的主题爬虫的研究[J];电脑知识与技术;2011年03期
8 王迁;王丽娜;;对收费网站中作品提供链接的法律性质——评“娱乐基地”诉百度案[J];电子知识产权;2007年08期
9 胡宏涛;常佳;;基于网络的信息获取技术浅析[J];福建电脑;2006年04期
10 张军洲;连云凯;;基于旅游博客和论坛提高旅游产品质量的模型研究[J];旅游论坛;2012年02期
中国重要会议论文全文数据库 前3条
1 王栋;陈勇;徐建良;;基于预测的BitTorrent种子评估方法[A];2008'中国信息技术与应用学术论坛论文集(二)[C];2008年
2 刘兵;胡学钢;;基于多链接分析的主题爬虫设计实现[A];全国第20届计算机技术与应用学术会议(CACIS·2009)暨全国第1届安全关键技术与应用学术会议论文集(上册)[C];2009年
3 戴玉刚;;藏文网页采集技术研究[A];民族语言文字信息技术研究——第十一届全国民族语言文字信息学术研讨会论文集[C];2007年
中国博士学位论文全文数据库 前8条
1 吴羽;面向时间敏感对象的垂直搜索引擎关键技术研究[D];浙江大学;2011年
2 邓斌;B2C在线评论中的客户知识管理研究[D];电子科技大学;2010年
3 张翔;文本挖掘技术研究及其在综合风险信息网络中的应用[D];西北大学;2011年
4 王肃;基于多Agent的突发事件信息智能监测系统研究[D];北京邮电大学;2011年
5 陈竹敏;面向垂直搜索引擎的主题爬行技术研究[D];山东大学;2008年
6 王英;Deep Web数据集成关键技术研究[D];吉林大学;2010年
7 王占一;Web文本挖掘中若干问题的研究[D];北京邮电大学;2012年
8 杨志;基于本体的语义互操作研究[D];北京邮电大学;2012年
中国硕士学位论文全文数据库 前10条
1 吕芳芳;基于查询扩展的垂直搜索研究[D];山东科技大学;2010年
2 翁岩青;网页抓取策略研究[D];哈尔滨工程大学;2010年
3 蔡宇虹;基于主题的元搜索引擎关键技术研究[D];哈尔滨工程大学;2010年
4 史炜;个性化搜索引擎的研究与设计[D];电子科技大学;2010年
5 丁宝琼;网络文本信息采集分析关键技术研究与实现[D];解放军信息工程大学;2009年
6 沙有闯;基于Web文本挖掘的网络口碑监测系统研究[D];安徽大学;2010年
7 陈可钦;基于垂直搜索引擎的主题爬虫算法的研究[D];中南林业科技大学;2009年
8 张朝威;面向企业竞争情报的主题搜索研究与实现[D];西安电子科技大学;2010年
9 刘永信;主题搜索与Web挖掘的研究及系统实现[D];西安电子科技大学;2009年
10 姜博;基于聚焦爬虫的web信息采集技术研究[D];北方工业大学;2011年
【同被引文献】
中国期刊全文数据库 前10条
1 王静;叶中华;;我国高校突发事件应急管理的背景、现状与趋势[J];安全;2010年01期
2 范渊;;Web应用风险扫描的研究与应用[J];信息安全与技术;2010年09期
3 周宏宇;张政;;中文分词技术综述[J];安阳师范学院学报;2010年02期
4 张彦超;刘云;李勇;沈波;;基于自动生成模板的Web信息抽取技术[J];北京交通大学学报;2009年05期
5 廉捷;刘云;;网络舆情中的信息预处理与自动摘要算法[J];北京交通大学学报;2010年05期
6 董竟;科技术语中合成词语的语义分析[J];包钢科技;2003年02期
7 李伟;黄颖;;基于HtmlParser的网页信息提取[J];兵工自动化;2007年07期
8 雷鸣,王建勇,赵江华,单松巍,陈葆珏;第三代搜索引擎与天网二期[J];北京大学学报(自然科学版);2001年05期
9 邓志鸿,唐世渭,张铭,杨冬青,陈捷;Ontology研究综述[J];北京大学学报(自然科学版);2002年05期
10 龚汉明,周长胜;汉语分词技术综述[J];北京机械工业学院学报;2004年03期
中国重要会议论文全文数据库 前3条
1 骆卫华;刘群;程学旗;;话题检测与跟踪技术的发展与研究[A];语言计算与基于内容的文本处理——全国第七届计算语言学联合学术会议论文集[C];2003年
2 蒲宇达;关毅;王强;;基于数据挖掘思想的网页正文抽取方法的研究[A];第三届学生计算语言学研讨会论文集[C];2006年
3 ;中文信息处理重大成果汇报展方正集团展示内容介绍[A];中国中文信息学会第六次全国会员代表大会暨成立二十五周年学术会议中文信息处理重大成果汇报展资料汇编[C];2006年
中国重要报纸全文数据库 前2条
1 齐剑锋 彭岩;[N];计算机世界;2001年
2 本报记者 李淼 赵婷 见习记者 任晓宁 廖小珊;[N];中国新闻出版报;2010年
中国博士学位论文全文数据库 前10条
1 李常宝;基于索引的web服务发现研究[D];北京邮电大学;2011年
2 郑欣;物联网商业模式发展研究[D];北京邮电大学;2011年
3 吴永辉;面向专业领域的网络信息采集及主题检测技术研究与应用[D];哈尔滨工业大学;2010年
4 陈定权;自动主题搜索的应用研究[D];中国科学院研究生院(文献情报中心);2003年
5 应晓敏;面向Internet个性化服务的用户建模技术研究[D];中国人民解放军国防科学技术大学;2003年
6 夏迎炬;文本过滤关键技术研究[D];复旦大学;2003年
7 陈治平;智能搜索引擎理论与应用研究[D];湖南大学;2003年
8 李景;本体理论及在农业文献检索系统中的应用研究——以花卉学本体建模为例[D];中国科学院研究生院(文献情报中心);2004年
9 宋枫溪;自动文本分类若干基本问题研究[D];南京理工大学;2004年
10 薛德军;中文文本自动分类中的关键问题研究[D];清华大学;2004年
中国硕士学位论文全文数据库 前10条
1 翁岩青;网页抓取策略研究[D];哈尔滨工程大学;2010年
2 江湉湉;基于VR技术的学生群体紧急疏散模拟研究[D];华东师范大学;2011年
3 赵善明;基于Lucene的主题搜索引擎研究[D];西安电子科技大学;2008年
4 周君;Web文本挖掘关键技术的研究与实现[D];西安电子科技大学;2009年
5 林捷;主题网络爬虫的研究和实现[D];武汉理工大学;2011年
6 任豪栋;基于Web日志挖掘的原型系统研究与实现[D];西华大学;2011年
7 龚小刚;基于插件技术的网络漏洞扫描系统的设计与实现[D];北京邮电大学;2011年
8 吴小燕;多媒体会议系统业务流程的设计与实现[D];北京邮电大学;2011年
9 杨彦光;云南医专图书馆网站安全性探究与技术实现[D];电子科技大学;2011年
10 史雷军;基于领域本体的需求获取方法和技术的研究[D];武汉科技大学;2011年
【二级引证文献】
中国期刊全文数据库 前10条
1 冀强;;基层公安BBS舆情及有害信息监控研究[J];才智;2009年22期
2 崔琳;汪材印;;基于语义Web的Blog智能检索系统研究[J];长江大学学报(自然科学版);2011年10期
3 杨仁广;孟祥增;;网络多媒体教学资源主题搜索研究[J];电化教育研究;2009年05期
4 武昊;廖安平;何超英;侯东阳;;基于主题相关度的地理信息Web服务爬虫研究[J];地理与地理信息科学;2012年02期
5 李园伟;;面向高校主题搜索引擎的的爬行器设计[J];电脑知识与技术;2011年16期
6 唐勇;;网络论坛爬虫的设计[J];电脑知识与技术;2012年03期
7 范宝梅;韩勇;齐永阳;;个性化电子地图中用户信息订制服务的实现[J];地理空间信息;2011年02期
8 李建廷;;元搜索引擎中搜索结果的采集与处理[J];电子科技;2010年06期
9 周思思;袁晓红;;社交网络信息采集技术研究与实现[J];电子世界;2012年04期
10 郭少杰;陈雅冰;;Deep Web技术在科学数据共享平台中的应用[J];广东科技;2010年14期
中国重要会议论文全文数据库 前5条
1 王旭;杜军平;;质检总局互联网舆情监控系统中聚焦爬虫的研究[A];中国电子学会第十七届信息论学术年会论文集[C];2010年
2 杨江;侯敏;;语言文字舆情论略[A];中国传媒大学第四届全国新闻学与传播学博士生学术研讨会论文集[C];2010年
3 李楠;谷利泽;钮心忻;;用于XSS扫描的网络爬虫的设计与实现[A];2010年全国通信安全学术会议论文集[C];2010年
4 李蕊;魏更宇;王枞;张冬梅;;Rhino解析引擎的分析与改进[A];2010年全国通信安全学术会议论文集[C];2010年
5 彭小明;辛阳;;基于增量贝叶斯算法的主题爬虫的设计与实现[A];第九届中国通信学会学术年会论文集[C];2012年
中国博士学位论文全文数据库 前8条
1 田建伟;面向领域的高质量Deep Web数据集成技术研究[D];武汉大学;2010年
2 李群;主题搜索引擎聚类算法的研究[D];北京林业大学;2011年
3 田俊华;基于本体知识库的教学资源自动采集技术研究[D];南京师范大学;2011年
4 吴伟光;数字技术环境下的版权法—危机与对策[D];中国社会科学院研究生院;2008年
5 陈竹敏;面向垂直搜索引擎的主题爬行技术研究[D];山东大学;2008年
6 吴定峰;基于本体的语义搜索模型研究[D];中国农业科学院;2012年
7 李鹏;基于专利信息分析的生物侦检技术发展研究[D];中国人民解放军军事医学科学院;2012年
8 王欣;WEB应用系统安全检测关键技术研究[D];北京邮电大学;2011年
中国硕士学位论文全文数据库 前10条
1 岳广飞;基于二次搜索的搜索引擎技术研究[D];山东科技大学;2010年
2 张琪;网络舆论被主流媒体引导的必要性和可行性研究[D];上海外国语大学;2010年
3 钟鸿鹏;基于时态信息的网页排序系统的研究与实现[D];华南理工大学;2010年
4 刘杰雄;基于本体的爆破行业信息搜索技术的研究[D];华南理工大学;2010年
5 韩瑞凯;基于社区发现的网络舆论导向系统研究与应用[D];北京交通大学;2010年
6 王允;网络舆情数据获取与话题分析技术研究[D];解放军信息工程大学;2010年
7 张卓;基于分层需求的领域本体构建及语义标注方法研究[D];东北财经大学;2010年
8 杨晓丹;基于Lucene的主题搜索引擎模板的设计与实现[D];浙江工商大学;2011年
9 檀康;基于深度网页爬虫搜索引擎原型的研究和实现[D];东华大学;2010年
10 陈志刚;网络Flash资源爬行器的设计与实现[D];山东师范大学;2011年
【相似文献】
中国期刊全文数据库 前10条
1 胡宏涛;常佳;;基于网络的信息获取技术浅析[J];福建电脑;2006年04期
2 何莹;;基于KPS的HTML数据抽取[J];网络安全技术与应用;2009年03期
3 丁黄望;丁要军;;模糊聚类分析及其在信息检索中的应用[J];福建电脑;2006年04期
4 何拥军;龚发根;;基于用户辅助估计的相关网页搜索聚类[J];计算机技术与发展;2011年07期
5 张晓卫;朱巧明;;一种基于Lucene的Web全文信息检索系统的设计与实现[J];计算机与现代化;2006年12期
6 曹冬林;林达真;;文本检索模型综述[J];心智与计算;2007年04期
7 杜光芹;张化祥;赵瑞东;;主题Web挖掘研究[J];计算机技术与发展;2008年02期
8 范会联;李献礼;曾广朴;;基于改进遗传算法的聚焦爬虫设计[J];计算机工程与科学;2010年05期
9 刘永泰;全文文本检索技术及其发展[J];中国信息导报;1998年04期
10 黄嘉满;张冬茉;;基于本体的商务领域文本检索的研究[J];微型电脑应用;2007年02期
中国重要会议论文全文数据库 前10条
1 廖光忠;黄泽鑫;;基于HowNet语义算法的研究[A];2008'中国信息技术与应用学术论坛论文集(一)[C];2008年
2 孙金立;李路路;王栋;;生物信息检索教学网的建设[A];向数字化转型的图书馆工作[C];2004年
3 姚树宇;赵少东;;一种使用分布式技术的搜索引擎[A];2005年全国开放式分布与并行计算学术会议论文集[C];2005年
4 孙金立;李路路;董明强;;建立生物信息检索教学网的研究[A];中华医学会第十次全国医学信息学术会议论文汇编[C];2004年
5 ;编者的话[A];第二届全国信息检索与内容安全学术会议(NCIRCS-2005)论文集[C];2005年
6 米晓红;;一种基于LSI的用户兴趣模型构建方法[A];计算机技术与应用进展——全国第17届计算机科学与技术应用(CACIS)学术会议论文集(上册)[C];2006年
7 田田;马军;李跃军;;应用多本体进行信息检索的研究[A];第二十二届中国数据库学术会议论文集(研究报告篇)[C];2005年
8 吴立德;黄萱菁;;前言[A];NCIRCS2004第一届全国信息检索与内容安全学术会议论文集[C];2004年
9 王敬成;;HNC农村智能信息检索系统[A];2006年首届ICT大会信息、知识、智能及其转换理论第一次高峰论坛会议论文集[C];2006年
10 李应兴;付婷;李勇;;基于LUCENE的藏文信息检索的研究与应用[A];民族语言文字信息技术研究——第十一届全国民族语言文字信息学术研讨会论文集[C];2007年
中国重要报纸全文数据库 前10条
1 希安;微软试水信息检索[N];经济日报;2004年
2 广东省电信公司科学技术研究院 汪虹;数据抽取: 复杂电信数据的统一路[N];计算机世界;2002年
3 涂凯;数据淘金 妙在分分合合[N];中国计算机报;2003年
4 何清 史忠植 王伟;搜索引擎的前沿技术[N];计算机世界;2006年
5 叶静;开辟信息检索的新天地[N];人民邮电;2001年
6 本报记者 潘永花;组件化平台提升信息检索效率[N];网络世界;2003年
7 刘静一;个人档案信息检索[N];建筑报;2000年
8 刘光强;搜索个人、企业、垂直三大搜索新进展[N];中国计算机报;2007年
9 柏荣;国家973项目在因特网大规模信息检索领域取得突破[N];中国高新技术产业导报;2003年
10 刘立新;信息社会技术前瞻[N];学习时报;2006年
中国博士学位论文全文数据库 前10条
1 王鑫印;无结构和半结构信息检索相关技术研究[D];复旦大学;2007年
2 翟海军;面向Web信息检索的知识挖掘[D];中国科学技术大学;2010年
3 张乃洲;实体搜索爬虫和信息抽取研究[D];武汉大学;2011年
4 陈珂锐;基于本体演化的Deep Web数据抽取与注释[D];吉林大学;2011年
5 胡熠;面向信息检索的文本内容分析[D];上海交通大学;2007年
6 张俊林;基于语言模型的信息检索系统研究[D];中国科学院研究生院(软件研究所);2004年
7 丁艳辉;面向Web数据集成的数据抽取问题研究[D];山东大学;2010年
8 吴定峰;基于本体的语义搜索模型研究[D];中国农业科学院;2012年
9 王占一;Web文本挖掘中若干问题的研究[D];北京邮电大学;2012年
10 杨志峰;稳定的信息检索方法及其在分布式环境下的应用[D];中国科学院研究生院(计算技术研究所);2003年
中国硕士学位论文全文数据库 前10条
1 郭坤银;基于页面分块和链接分析的Web图片检索研究[D];重庆大学;2009年
2 倪贤贵;聚焦爬虫技术研究[D];江南大学;2008年
3 高文梁;改进的基于历史信息分析的网页排序算法[D];大连理工大学;2009年
4 邱春艳;基于粗糙集理论的智能信息检索方法的研究[D];东北师范大学;2005年
5 董晨曦;基于网站内容框架的聚焦爬虫算法的优化和实现[D];北京交通大学;2012年
6 乔智勇;Web数据挖掘系统的设计及关键技术研究[D];西安电子科技大学;2002年
7 杨才峰;基于自动分类的元搜索引擎的研究与应用[D];华北电力大学(河北);2005年
8 郭磊;P2P系统中的信息检索理论及应用研究[D];山东师范大学;2011年
9 宋海林;基于语言模型的信息检索中负反馈技术的研究与实现[D];内蒙古大学;2011年
10 管玉娟;基于智能Agent的个性化信息检索技术研究[D];西安建筑科技大学;2005年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62791813
  • 010-62985026