收藏本站
收藏 | 投稿 | 手机打开
二维码
手机客户端打开本文

基于动态主题库的主题爬虫

金明珠  丁岳伟  
【摘要】:通过对基于不同策略过滤URL的主题爬虫的研究,提出了一种基于动态主题库的主题爬虫。它能够在运行期间实时地更新主题库,提高了对URL过滤的准确度。实验表明,所提的主题爬虫能够在相对较少的时间中,检索尽量少的网络空间,抓取到较多与主题相关的网页。

知网文化
【相似文献】
中国期刊全文数据库 前20条
1 关慧芬;师军;马继红;;基于遗传算法的主题爬行技术研究[J];计算机与数字工程;2008年10期
2 汪斌;张云伟;刘健;陈晶;;一种面向农业信息主题网络爬虫的设计[J];安徽农业科学;2009年20期
3 李琳琢;;网络爬虫软件的研究与开发[J];软件导刊;2011年05期
4 邹永斌;陈兴蜀;王文贤;;基于贝叶斯分类器的主题爬虫研究[J];计算机应用研究;2009年09期
5 戚欣;;基于本体的主题网络爬虫设计[J];武汉理工大学学报;2009年03期
6 金明珠;丁岳伟;;基于统计模型的主题爬虫的研究与实现[J];计算机工程与设计;2010年16期
7 汪涛,樊孝忠;主题爬虫的设计与实现[J];计算机应用;2004年S1期
8 刘国靖;康丽;罗长寿;;基于遗传算法的主题爬虫策略[J];计算机应用;2007年S2期
9 徐德智;郭渭莉;;基于本体的主题相关度算法研究[J];云南大学学报(自然科学版);2007年S1期
10 吴炜;梁昆;李瑞轩;辜希武;卢正鼎;;一种基于主题相关度的网页排序算法[J];微电子学与计算机;2008年09期
11 邵雄凯;梁云静;刘建舟;;基于遗传算法的主题信息搜索研究[J];网络安全技术与应用;2009年11期
12 王学贺;;智能主题搜索算法研究[J];江汉大学学报(自然科学版);2009年02期
13 韩宇;黄青松;;基于改进PageRank的情报主题相关度预测策略[J];微型电脑应用;2010年03期
14 曾广朴;范会联;;基于遗传算法的聚焦爬虫搜索策略[J];计算机工程;2010年11期
15 王朝斌;金洪颖;赵刚;;基于本体的搜索引擎研究[J];西华师范大学学报(自然科学版);2010年04期
16 彭冬;蔡皖东;;面向Web论坛的网络信息获取技术及系统实现[J];计算机工程与科学;2011年01期
17 拜战胜;徐德智;彭佳红;陈光仪;;基于主题本体的信息采集模型研究[J];计算机技术与发展;2009年10期
18 谢志妮;;一种新的基于概念树的主题网络爬虫方法[J];计算机与现代化;2010年04期
19 范会联;李献礼;曾广朴;;基于改进遗传算法的聚焦爬虫设计[J];计算机工程与科学;2010年05期
20 张敏;杜华;;垂直搜索引擎系统的设计与实现[J];情报科学;2011年03期
中国重要会议论文全文数据库 前2条
1 吴炜;梁昆;李瑞轩;辜希武;卢正鼎;;一种基于主题相关度的网页排序算法[A];2008年全国开放式分布与并行计算机学术会议论文集(上册)[C];2008年
2 刘兵;胡学钢;;基于多链接分析的主题爬虫设计实现[A];全国第20届计算机技术与应用学术会议(CACIS·2009)暨全国第1届安全关键技术与应用学术会议论文集(上册)[C];2009年
中国博士学位论文全文数据库 前2条
1 王肃;基于多Agent的突发事件信息智能监测系统研究[D];北京邮电大学;2011年
2 王琦;古代壁画的语义检索技术及应用研究[D];浙江大学;2011年
中国硕士学位论文全文数据库 前10条
1 彭乐;基于HMM的定题信息采集研究与实践[D];东华大学;2010年
2 陈瑜芳;主题爬虫系统的研究[D];武汉理工大学;2010年
3 李正文;基于SVM分类算法的主题爬虫研究[D];哈尔滨工程大学;2011年
4 卢振;面向教育新闻的主题爬虫设计与实现[D];华中科技大学;2011年
5 卫莉莉;面向领域的Web文本采集与分类[D];西安建筑科技大学;2011年
6 刘朋;基于Lucene的垂直搜索引擎关键技术的研究应用[D];武汉理工大学;2009年
7 王斐;基于增量反馈和自适应机制的主题爬虫系统的设计与实现[D];南京理工大学;2005年
8 史磊峰;移动垂直搜索系统的研究[D];北京交通大学;2010年
9 海涛;垂直搜索引擎数据采集技术的研究与实现[D];华北电力大学(北京);2008年
10 姜博;基于聚焦爬虫的web信息采集技术研究[D];北方工业大学;2011年
中国重要报纸全文数据库 前1条
1 东方证券 陈刚 王天一 编辑 全泽源;国庆60周年大阅兵 军工板块能沾多少喜气[N];上海证券报;2009年
中国知网广告投放
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62982499
  • 010-62783978