收藏本站
《计算机应用》 2011年12期
收藏 | 投稿 | 手机打开
二维码
手机客户端打开本文

基于维基百科和网页分块的主题爬行策略

熊忠阳  史艳  张玉芳  
【摘要】:针对传统主题爬行策略的不足和局限性,提出一种基于维基百科(Wikipedia)和网页分块的主题爬行策略,通过Wikipedia的主题分类树和主题描述文档获取主题向量,以此来描述主题;并在下载网页后引入网页分块,过滤噪声链接;在计算候选链接优先级时,引入块相关性,以弥补锚文本信息量有限的缺点;通过改变主题向量空间的大小来验证主题描述的详略对爬行性能的影响。实验结果表明,该策略有效,并且在一定限度内,对主题描述越详细,搜集的网页的相关度就越高。
【作者单位】重庆大学计算机学院;
【基金】:中央高校研究生科技创新基金个人项目资助(CDJXS11180014)
【分类号】:TP393.092

【参考文献】
中国期刊全文数据库 前1条
1 赵佳鹤;王秀坤;刘亚欣;;基于语义分析的主题信息采集系统的设计与实现[J];计算机应用;2007年02期
中国博士学位论文全文数据库 前1条
1 陈竹敏;面向垂直搜索引擎的主题爬行技术研究[D];山东大学;2008年
【共引文献】
中国期刊全文数据库 前10条
1 赵洋;滕桂法;张玉新;何冬梅;;基于Internet的农业信息垂直搜索引擎的设计[J];河北农业大学学报;2009年06期
2 李园伟;;面向高校主题搜索引擎的的爬行器设计[J];电脑知识与技术;2011年16期
3 孙志军;郑烇;袁婧;刘恒;王嵩;;基于浅层语义分析技术的语义检索[J];计算机科学;2012年06期
4 郑国良;叶飞跃;林国俊;耿冬;;基于领域本体的主题信息采集方法[J];计算机应用;2008年12期
5 王煜;张浩斌;;面向主题的网页采集系统的设计与研究[J];计算机与数字工程;2008年04期
6 熊忠阳;史艳;张玉芳;;基于信息增益的自适应主题爬行策略[J];计算机应用研究;2012年02期
7 张红云;刘炜;熊前兴;;一种基于语义本体的网络爬虫模型[J];计算机应用与软件;2009年11期
8 刘炜;张红云;熊前兴;;基于语义分析的网络爬虫模型的研究[J];科技信息;2008年35期
9 夏斌;丁立;乔红波;高瑞;;中文农业信息垂直搜索引擎的设计与实现[J];河南农业大学学报;2010年06期
10 彭浩;蔡美玲;陈继锋;刘炽;余炳锐;;面向导航型网页关键词自动抽取的视觉模型与算法[J];计算机应用;2012年08期
中国博士学位论文全文数据库 前1条
1 田俊华;基于本体知识库的教学资源自动采集技术研究[D];南京师范大学;2011年
中国硕士学位论文全文数据库 前10条
1 岳广飞;基于二次搜索的搜索引擎技术研究[D];山东科技大学;2010年
2 卢承山;基于领域的主题信息采集技术研究[D];武汉理工大学;2011年
3 邱伟林;面向领域的垂直搜索引擎的研究与实现[D];大连海事大学;2011年
4 李蕊;基于网络爬虫技术的多源下载系统的设计与实现[D];北京邮电大学;2011年
5 陈恒;基于内容的视频搜索引擎[D];北京邮电大学;2011年
6 王伟;基于网络信息的热点事件发现与分析研究[D];华东师范大学;2011年
7 郑小波;基于语义的主题搜索引擎研究[D];安徽大学;2011年
8 张仲祥;基于领域本体的Deep Web数据源聚焦技术研究[D];广西师范大学;2011年
9 李明铭;基于网络信息提取和网络空间服务的二手房产价格指数编制研究[D];南京师范大学;2011年
10 周志伟;支持语义的视频检索技术研究[D];中国科学技术大学;2011年
【二级参考文献】
中国期刊全文数据库 前10条
1 荆涛,左万利;基于可视布局信息的网页噪音去除算法[J];华南理工大学学报(自然科学版);2004年S1期
2 李晓亚;赫枫龄;左万利;;基于网页分块技术主题爬行器的实现[J];吉林大学学报(理学版);2007年06期
3 李盛韬,赵章界,余智华;基于主题的Web信息采集系统的设计与实现[J];计算机工程;2003年17期
4 欧阳柳波,李学勇,李国徽,王鑫;专业搜索引擎搜索策略综述[J];计算机工程;2004年13期
5 于满泉,陈铁睿,许洪波;基于分块的网页信息解析器的研究与设计[J];计算机应用;2005年04期
6 周立柱,林玲;聚焦爬虫技术研究综述[J];计算机应用;2005年09期
7 李卫;刘建毅;何华灿;王枞;;基于主题的智能Web信息采集系统的研究与实现[J];计算机应用研究;2006年02期
8 龚永恩;袁春风;武港山;;基于语义的词义消歧算法初探[J];计算机应用研究;2006年03期
9 宋睿华,马少平,陈刚,李景阳;一种提高中文搜索引擎检索质量的HTML解析方法[J];中文信息学报;2003年04期
10 欧健文,董守斌,蔡斌;模板化网页主题信息的提取方法[J];清华大学学报(自然科学版);2005年S1期
中国博士学位论文全文数据库 前1条
1 彭涛;面向专业搜索引擎的主题爬行技术研究[D];吉林大学;2007年
【相似文献】
中国期刊全文数据库 前10条
1 任斌;毛应爽;;基于本体的主动学习主题爬行的研究与实现[J];长春工程学院学报(自然科学版);2011年01期
2 李晓亚;赫枫龄;左万利;;基于网页分块技术主题爬行器的实现[J];吉林大学学报(理学版);2007年06期
3 彭涛;孟宇;左万利;王英;胡亮;;主题爬行中的隧道穿越技术[J];计算机研究与发展;2010年04期
4 陈竹敏;马军;韩晓晖;雷景生;;面向主题爬取的多粒度URLs优先级计算方法[J];中文信息学报;2009年03期
5 王知津,黄欣;主题标引过程的符号语言学分析——主题标引过程步骤[J];情报科学;2003年06期
6 朱玉强;;维基百科:分享知识的自由百科全书[J];农业图书情报学刊;2006年01期
7 何筠红;;在线共享的自由百科全书——维基百科[J];新世纪图书馆;2006年04期
8 尹开国;;自由人的自由联合:维基百科评介[J];图书情报工作;2007年02期
9 都蓝;;知识组织在Wiki中的应用探析[J];图书馆学研究;2008年05期
10 徐争荣;;构建电影专业维基百科的设想[J];图书情报工作;2009年S1期
中国重要会议论文全文数据库 前10条
1 陈竹敏;马军;韩晓晖;雷景生;;面向主题爬取的多粒度URLs优先级计算方法[A];第四届全国信息检索与内容安全学术会议论文集(上)[C];2008年
2 夏诏杰;郭力;李晓霞;;化学主题网络爬虫的研究[A];第十届全国计算(机)化学学术会议论文摘要集[C];2009年
3 王莹;刘杨;;维基百科的文本聚类方法分析[A];2009年研究生学术交流会通信与信息技术论文集[C];2009年
4 苏小康;何婷婷;涂新辉;何金卓;;一种基于维基百科知识库的中文文本分类方法研究[A];中国计算机语言学研究前沿进展(2007-2009)[C];2009年
5 张文东;袁春风;武港山;;基于视觉的网页数据抽取[A];2009年研究生学术交流会通信与信息技术论文集[C];2009年
6 郎君;忻舟;秦兵;刘挺;李生;;集成多种背景语义知识的共指消解[A];第四届全国信息检索与内容安全学术会议论文集(上)[C];2008年
7 徐平;王静;孙鼎;;基于维基的探究性学习[A];2011中国针灸学会年会论文集(摘要)[C];2011年
8 王英;左万利;王鑫;彭涛;;基于多分类器的Deep Web入口发现[A];第六届全国信息检索学术会议论文集[C];2010年
9 李甦;李文馥;杨玉芳;;儿童故事命题能力的发展[A];第十届全国心理学学术大会论文摘要集[C];2005年
10 廖祥文;曹冬林;方滨兴;许洪波;程学旗;;基于概率推理模型的博客倾向性检索研究[A];第四届全国信息检索与内容安全学术会议论文集(上)[C];2008年
中国重要报纸全文数据库 前10条
1 三月;悬笔记事四姐妹[N];东方航空报;2008年
2 记者杨健、赵亚辉;色情信息在网上大肆敛财[N];人民日报;2003年
3 南京工程学院仿真部 施建强;用VB制作网络搜索软件[N];计算机世界;2002年
4 ;从信用卡中挖掘金矿[N];计算机世界;2002年
5 双龙一剑;现代办公BQQ应用方案(下)[N];中国电脑教育报;2003年
6 农总行托管业务部 邓剑军;私人银行:超越“银行”的理财[N];中国城乡金融报;2008年
7 ;绿道如“隧道” 带我们走进城市的历史[N];成都日报;2010年
8 顾环宇;从刘亮到刘翔的品牌泡沫[N];中国经营报;2004年
9 记者 徐行翔 通讯员 陆懿;南湖景区延伸红色旅游链[N];嘉兴日报;2010年
10 早报记者 程晓筠;独立纪录片的困境与突围之道[N];东方早报;2010年
中国博士学位论文全文数据库 前8条
1 陈竹敏;面向垂直搜索引擎的主题爬行技术研究[D];山东大学;2008年
2 彭涛;面向专业搜索引擎的主题爬行技术研究[D];吉林大学;2007年
3 王辉;基于质心具有增量性质的主题爬行[D];吉林大学;2007年
4 罗娜;基于本体的主题爬行技术研究[D];吉林大学;2009年
5 李赟;基于中文维基百科的语义知识挖掘相关研究[D];北京邮电大学;2009年
6 张长利;面向特定领域的互联网舆情分析技术研究[D];吉林大学;2011年
7 王英;Deep Web数据集成关键技术研究[D];吉林大学;2010年
8 夏迎炬;文本过滤关键技术研究[D];复旦大学;2003年
中国硕士学位论文全文数据库 前10条
1 张超群;基于网页分块技术的主题爬行[D];吉林大学;2007年
2 史艳;垂直搜索引擎中主题爬行技术的研究[D];重庆大学;2012年
3 张长利;网页相似性算法的研究与实现[D];吉林大学;2005年
4 柳周频;基于链接上下文的网页预测[D];吉林大学;2006年
5 刘志强;基于文本经验模型的主题爬行系统[D];吉林大学;2006年
6 姜鑫;基于网页连通信息的主题爬行技术研究与实现[D];吉林大学;2007年
7 董静茹;基于链接背景信息的启发式主题爬行[D];吉林大学;2006年
8 王煜;基于页面划分的网面预测[D];吉林大学;2005年
9 袁凯;基于主题的网络蜘蛛的设计与实现[D];北京交通大学;2008年
10 郭坤银;基于页面分块和链接分析的Web图片检索研究[D];重庆大学;2009年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62791813
  • 010-62985026