收藏本站
《华南理工大学学报(自然科学版)》 2004年S1期
收藏 | 投稿 | 手机打开
二维码
手机客户端打开本文

主题爬虫的解决方案

刘林  汪涛  樊孝忠  
【摘要】:对传统的综合性搜索引擎召回率和精确率低的问题,可以用主题爬虫取代其中的普通爬虫构建主题搜索引擎,为用户提供信息检索服务,满足用户伴随信息多元化的增长而不断扩展的信息需求.文中研究了主题爬虫设计中的相关度分析、概念分析和链接分析等关键技术,通过实验给出了一系列解决方案.结果表明,主题爬虫的精度高于普通爬虫,具有可行性与实用性,并有助于主题搜索引擎的设计和主题信息的采集.

【引证文献】
中国期刊全文数据库 前1条
1 郑健珍;林坤辉;周昌乐;康恺;;基于本体语义的定题爬虫[J];山东大学学报(理学版);2006年03期
中国重要会议论文全文数据库 前1条
1 梁循;杨健;陈华;曾月卿;;互联网金融信息搜索[A];中国优选法统筹法与经济数学研究会第七届全国会员代表大会暨第七届中国管理科学学术年会论文集[C];2005年
中国硕士学位论文全文数据库 前7条
1 周旭;BBS热点分析系统研究[D];北京交通大学;2007年
2 罗兵;支持AJAX的互联网搜索引擎爬虫设计与实现[D];浙江大学;2007年
3 刘洁清;网站聚焦爬虫研究[D];江西财经大学;2006年
4 孙炜;基于语义网技术的主题搜索引擎原型研究及其在电子政务领域的应用[D];北京交通大学;2008年
5 郑健珍;定题爬虫搜索策略研究[D];厦门大学;2007年
6 刘迟;垂直搜索引擎的抓取技术研究[D];浙江大学;2008年
7 康恺;定题信息检索关键技术研究[D];厦门大学;2007年
【共引文献】
中国期刊全文数据库 前10条
1 汪涛,樊孝忠,顾益军,刘林;基于概念分析的主题爬虫设计[J];北京理工大学学报;2004年10期
2 陆俭明;;要重视特征的研究与描写[J];长江学术;2006年01期
3 徐金雷;杨晓江;;基础教育资源搜索引擎的排序算法研究[J];电化教育研究;2007年02期
4 唐培和,杨新伦,刘浩;Google搜索引擎及其实现技术[J];广西工学院学报;2004年02期
5 莫丽萍,王树西,姜吉发,雷雨霞;问答系统和浅层结构模式推理[J];广西师范大学学报(自然科学版);2004年01期
6 张红斌;;网上求职机器人的软件设计[J];华东交通大学学报;2006年01期
7 杨海东,张莉;PageRank技术分析与搜索引擎检索效率研究[J];淮阴师范学院学报(自然科学版);2003年03期
8 陆俭明;词的具体意义对句子意思理解的影响[J];汉语学习;2004年02期
9 王树西;白硕;;事实库、规则库的一体化全文索引算法[J];计算机科学;2006年04期
10 董瑞洪,张秋余,唐静兵,张涛;抢先式多线程Spider在智能搜索引擎中的实现[J];计算机工程;2005年18期
中国博士学位论文全文数据库 前8条
1 常春;Ontology在农业信息管理中的构建和转化[D];中国农业科学院;2004年
2 代六玲;互联网内容监管系统关键技术的研究[D];南京理工大学;2005年
3 刘华;基于关键短语的文本内容标引研究[D];北京语言大学;2005年
4 达胡白乙拉;蒙古语基本动词短语自动识别研究[D];内蒙古大学;2005年
5 王树西;基于文本模式推理的问答系统研究[D];中国科学院研究生院(计算技术研究所);2005年
6 高红;基于统计语言模型的汉语浅层分析研究[D];大连理工大学;2007年
7 宗校军;中文网页定题采集及分类研究[D];华中科技大学;2006年
8 叶作亮;基于制造网格的制造资源管理若干关键技术研究[D];浙江大学;2006年
中国硕士学位论文全文数据库 前10条
1 宋礼鹏;大规模语料库分词质量评价方法研究[D];山西大学;2004年
2 朱素媛;网络教育中的智能搜索引擎的研究[D];合肥工业大学;2004年
3 张兰轩;基于潜在语义分析的大学概况中文问答系统[D];大连理工大学;2004年
4 于爱军;NERMS中基于Internet的搜索引擎研究与实现[D];吉林大学;2004年
5 张红;搜索引擎中个性化检索技术的研究与应用[D];兰州理工大学;2004年
6 谭德坤;文本挖掘及其在UDDI Registry智能检索中的应用[D];昆明理工大学;2004年
7 常晓燕;基于Java的新闻搜索引擎的设计与实现[D];西南交通大学;2004年
8 俞旸;一种大型语料库多层次特征索引检索算法的设计与实现[D];南京理工大学;2004年
9 吴东华;Web信息获取技术研究[D];南京理工大学;2004年
10 陆志海;分布式教育资源整合系统构建初探[D];南京师范大学;2004年
【同被引文献】
中国期刊全文数据库 前10条
1 龚汉明,周长胜;汉语分词技术综述[J];北京机械工业学院学报;2004年03期
2 江加和,宋子善,沈为群,邱力为;模拟退火算法在连续变量全局优化问题中应用[J];北京航空航天大学学报;2001年05期
3 汪涛,樊孝忠,顾益军,刘林;基于概念分析的主题爬虫设计[J];北京理工大学学报;2004年10期
4 查志华;李伟;;搜索引擎的技术现状及发展趋势[J];兵团教育学院学报;2006年03期
5 耿平,刘静,曾梅光;多变元非线性复杂系统的优化与模拟退火算法[J];东北大学学报(自然科学版);2002年03期
6 朱靖波,姚天顺;中文信息自动抽取[J];东北大学学报(自然科学版);1998年01期
7 岳清;浅析搜索引擎的原理及发展前景[J];大众科技;2005年05期
8 杨庆之;无约束优化问题模拟退火算法的改进[J];高等学校计算数学学报;2001年02期
9 王灏,黄厚宽,田盛丰;文本分类实现技术[J];广西师范大学学报(自然科学版);2003年01期
10 席自强;单纯形-模拟退火算法[J];湖北工学院学报;2000年01期
中国博士学位论文全文数据库 前3条
1 陈定权;自动主题搜索的应用研究[D];中国科学院研究生院(文献情报中心);2003年
2 王进;基于本体的语义信息检索研究[D];中国科学技术大学;2006年
3 彭涛;面向专业搜索引擎的主题爬行技术研究[D];吉林大学;2007年
中国硕士学位论文全文数据库 前10条
1 侯震宇;主题型搜索引擎的研究与实现[D];中国科学院研究生院(文献情报中心);2003年
2 吴政;面向侨务信息主题的搜索引擎[D];华侨大学;2003年
3 刘晓东;基于Web的网络数据库安全技术研究[D];武汉理工大学;2003年
4 刘峰;通用中英文专业搜索引擎技术的研究及应用[D];大连理工大学;2004年
5 徐永红;基于专题信息服务的智能搜索引擎技术研究[D];国防科学技术大学;2004年
6 陈涛;深层网络信息资源分析与获取策略研究[D];东北师范大学;2005年
7 赵立刚;搜索引擎的研究与设计[D];吉林大学;2005年
8 王斐;基于增量反馈和自适应机制的主题爬虫系统的设计与实现[D];南京理工大学;2005年
9 李东升;主题搜索引擎研究[D];哈尔滨工程大学;2005年
10 郭琛;数字图书馆的中文网页文本分类器研究[D];武汉理工大学;2005年
【二级引证文献】
中国硕士学位论文全文数据库 前4条
1 杜光芹;效用驱动的主题Web挖掘算法研究[D];山东师范大学;2007年
2 方利伟;个性化在线答疑系统的研究与实现[D];浙江师范大学;2007年
3 陈奋;过滤型网络爬虫的研究与设计[D];厦门大学;2007年
4 薛涛;网络服务智能监测平台的研究[D];北京交通大学;2008年
【相似文献】
中国期刊全文数据库 前10条
1 何拥军;龚发根;;基于用户辅助估计的相关网页搜索聚类[J];计算机技术与发展;2011年07期
2 杨石山;孙建军;;中美高校图书馆网站链接结构比较研究[J];情报科学;2011年07期
3 李园伟;;面向高校主题搜索引擎的的爬行器设计[J];电脑知识与技术;2011年16期
4 张敏;李锋;;PageRank算法研究[J];微计算机信息;2011年08期
5 ;[J];;年期
6 ;[J];;年期
7 ;[J];;年期
8 ;[J];;年期
9 ;[J];;年期
10 ;[J];;年期
中国重要会议论文全文数据库 前10条
1 宋丹;林鸿飞;杨志豪;;一种利用链接分析的Web话题跟踪方法[A];第三届学生计算语言学研讨会论文集[C];2006年
2 邹纲;孟遥;于浩;西野文人;;一种基于网站主页信息建立公司名称知识库的方法[A];全国第八届计算语言学联合学术会议(JSCL-2005)论文集[C];2005年
3 吴炜;梁昆;李瑞轩;辜希武;卢正鼎;;一种基于主题相关度的网页排序算法[A];2008年全国开放式分布与并行计算机学术会议论文集(上册)[C];2008年
4 葛先军;李志勇;宋巍巍;;基于网页恶意脚本链接分析的木马检测技术[A];第五届中国测试学术会议论文集[C];2008年
5 刘悦;王斌;杨志峰;张鑫;;Web关键资源发现中的链接分析技术[A];语言计算与基于内容的文本处理——全国第七届计算语言学联合学术会议论文集[C];2003年
6 王玉婷;杜亚军;涂腾涛;;基于Web链接的主题爬行虫初始URL的研究[A];第四届全国信息检索与内容安全学术会议论文集(上)[C];2008年
7 孔维泽;刘奕群;张敏;马少平;;问答社区中回答质量的评价方法研究[A];第六届全国信息检索学术会议论文集[C];2010年
8 陈小飞;王轶彤;;一种基于链接结构的Spam网页过滤算法[A];NDBC2010第27届中国数据库学术会议论文集(B辑)[C];2010年
9 王英;左万利;王鑫;彭涛;;基于多分类器的Deep Web入口发现[A];第六届全国信息检索学术会议论文集[C];2010年
10 郭奇;周立柱;郭杭;;模式驱动的面向领域智能Web数据采集引擎[A];第二十二届中国数据库学术会议论文集(研究报告篇)[C];2005年
中国重要报纸全文数据库 前4条
1 钱鹏;网尽Web页中的好东东[N];电脑报;2004年
2 百度网络技术公司 刘建国;从中国人网站看搜索引擎的ASP服务[N];中国计算机报;2000年
3 Websense中国区高级技术顾问 李智明;反垃圾邮件成为网络安全重要一环[N];中国计算机报;2008年
4 赛迪网 方刚;不只是网站才垂直[N];中国计算机报;2000年
中国博士学位论文全文数据库 前6条
1 江开忠;上下文感知的Web搜索关键技术研究[D];华东师范大学;2008年
2 张长利;面向特定领域的互联网舆情分析技术研究[D];吉林大学;2011年
3 吴刚;RDF图数据管理的关键技术研究[D];清华大学;2008年
4 谢海涛;移动个性化信息服务系统的进化机制研究[D];北京邮电大学;2012年
5 郭眈;中文互联网视频搜索引擎系统策略研究[D];北京交通大学;2012年
6 任祖杰;非合作性环境下的P2P搜索技术研究[D];浙江大学;2010年
中国硕士学位论文全文数据库 前10条
1 高文梁;改进的基于历史信息分析的网页排序算法[D];大连理工大学;2009年
2 岳增慧;高校图书馆网络空间链接特征研究[D];曲阜师范大学;2011年
3 金奇;基于链接分析的中国体育类网站评估[D];复旦大学;2012年
4 何维;行业网站分类方法研究与应用[D];浙江大学;2006年
5 补嘉;基于LDA的社交网络链接预测模型研究[D];西南大学;2012年
6 韩亚洪;结合内容与链接分析搜索特定主题的权威Web信息源[D];河海大学;2003年
7 徐桢虎;链接作弊垃圾网页的检测算法研究[D];西南交通大学;2012年
8 杨宇航;基于内容与链接分析的重要Blog信息源发现[D];哈尔滨工业大学;2006年
9 范鑫鑫;基于页面相似度的链接分析算法研究[D];大连理工大学;2008年
10 王洋;基于主题词同现图的网页相关度研究[D];华南理工大学;2010年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62791813
  • 010-62985026