收藏本站
《计算机研究与发展》 2004年01期
收藏 | 投稿 | 手机打开
二维码
手机客户端打开本文

基于链接描述文本及其上下文的Web信息检索

张敏  高剑峰  马少平  
【摘要】:文档之间的超链接结构是Web信息检索和传统信息检索的最大区别之一 ,由此产生了基于超链接结构的检索技术 描述了链接描述文档的概念 ,并在此基础上研究链接文本 (anchortext)及其上下文信息在检索中的作用 通过使用超过 16 9万篇网页的大规模真实数据集以及TREC2 0 0 1提供的相关文档及评价方法进行测试 ,得到如下结论 :首先 ,链接描述文档对网页主题的概括有高度的精确性 ,但是对网页内容的描述有极大的不完全性 ;其次 ,与传统检索方法相比 ,使用链接文本在已知网页定位的任务上能够使系统性能提高 96 % ,但是链接文本及其上下文信息无法在未知信息查询任务上改善检索性能 ;最后 ,把基于链接描述文本的方法与传统方法相结合 ,能够在检索性能上提高近 16 %

【引证文献】
中国博士学位论文全文数据库 前1条
1 王树梅;信息检索相关技术研究[D];南京理工大学;2007年
中国硕士学位论文全文数据库 前10条
1 王春山;具有智能代理的商业智能系统研究[D];河北农业大学;2004年
2 董志勇;Web信息检索中基于超链接的网页评估算法的研究[D];河海大学;2004年
3 姚琪;垂直搜索引擎系统的研究与设计[D];上海交通大学;2008年
4 张聪;基于HITS的链接分析算法的研究与改进[D];大连理工大学;2007年
5 宋玲玲;网络搜索引擎中检索器检索方法研究[D];中国石油大学;2007年
6 陈杰;主题搜索引擎中网络蜘蛛搜索策略研究[D];浙江大学;2006年
7 谢若其;基于主题的WEB信息提取及智能搜索技术研究与实现[D];电子科技大学;2007年
8 杜光芹;效用驱动的主题Web挖掘算法研究[D];山东师范大学;2007年
9 张娜;基于机器学习的主题Web挖掘技术[D];山东师范大学;2007年
10 张泊平;基于网页结构相关性预取技术研究[D];郑州大学;2006年
【同被引文献】
中国期刊全文数据库 前10条
1 何盈捷,刘惟一;由Markov网到Bayesian网[J];计算机研究与发展;2002年01期
2 刘红;利用扩展锚点文本来分类网页[J];计算机应用研究;2004年03期
3 曹元大,贺海军,涂哲明;中文Web文档全文检索系统的设计及实现[J];北京理工大学学报;2002年01期
4 汪涛,樊孝忠,顾益军,刘林;基于概念分析的主题爬虫设计[J];北京理工大学学报;2004年10期
5 孙健,王伟,钟义信;基于K-最近距离的自动文本分类的研究[J];北京邮电大学学报;2001年01期
6 梅翔;孟祥武;陈俊亮;徐萌;;一种基于语义关联的查询优化方法[J];北京邮电大学学报;2006年06期
7 詹卫东;80年代以来汉语信息处理研究述评──作为现代汉语语法研究的应用背景之一[J];当代语言学;2000年02期
8 徐金雷;杨晓江;;基础教育资源搜索引擎的排序算法研究[J];电化教育研究;2007年02期
9 彭建荣;罗永会;;搜索引擎的基本原理及发展趋势[J];电脑知识与技术;2006年02期
10 丁璇,侯汉清,章成志;中文网页标引源主题表达能力的调查统计[J];大学图书馆学报;2002年06期
中国博士学位论文全文数据库 前10条
1 张俊林;基于语言模型的信息检索系统研究[D];中国科学院研究生院(软件研究所);2004年
2 宋枫溪;自动文本分类若干基本问题研究[D];南京理工大学;2004年
3 王建会;中文信息处理中若干关键技术的研究[D];复旦大学;2004年
4 代六玲;互联网内容监管系统关键技术的研究[D];南京理工大学;2005年
5 薛德军;中文文本自动分类中的关键问题研究[D];清华大学;2004年
6 李荣陆;文本分类及其相关技术研究[D];复旦大学;2005年
7 冯国臻;基于结构分析的大规模WWW文本信息检索技术的研究[D];中国科学院研究生院(计算技术研究所);2001年
8 刘悦;WWW上链接分析算法的若干研究[D];中国科学院研究生院(计算技术研究所);2004年
9 彭涛;面向专业搜索引擎的主题爬行技术研究[D];吉林大学;2007年
10 田萱;基于上下文的信息检索关键技术研究[D];中国人民大学;2007年
中国硕士学位论文全文数据库 前10条
1 张俭恭;扩展元搜索引擎(EMSE)的系统设计[D];中国科学院研究生院(文献情报中心);2002年
2 李炎茗;元搜索引擎的现状研究与改进设计[D];华中师范大学;2002年
3 索金琳;基于桌面的特定领域meta-search系统的研究[D];河海大学;2002年
4 侯震宇;主题型搜索引擎的研究与实现[D];中国科学院研究生院(文献情报中心);2003年
5 刘峰;通用中英文专业搜索引擎技术的研究及应用[D];大连理工大学;2004年
6 吴东华;Web信息获取技术研究[D];南京理工大学;2004年
7 滕跃;基于用户兴趣的个性化WEB检索[D];清华大学;2004年
8 寿周翔;专业搜索引擎的研究与设计[D];浙江大学;2005年
9 左家莉;基于Markov网络的信息检索模型[D];江西师范大学;2005年
10 虞靖靓;基于Q学习的Agent智能决策的研究与实现[D];合肥工业大学;2005年
【二级引证文献】
中国硕士学位论文全文数据库 前5条
1 杨彬;Web信息搜索技术的研究[D];西北工业大学;2007年
2 程锦;面向网络化制造资源的垂直搜索技术研究与应用[D];贵州大学;2007年
3 张霞;主题式搜索引擎中Web页面检索与推荐技术的研究[D];南京航空航天大学;2007年
4 郑健珍;定题爬虫搜索策略研究[D];厦门大学;2007年
5 袁川;基于用户点击行为的数字图书搜索系统研究与实现[D];浙江大学;2008年
【相似文献】
中国期刊全文数据库 前10条
1 贾志洋;崔博文;王勇刚;石宜金;;搜索引擎垃圾网页技术分析[J];情报探索;2011年07期
2 ;[J];;年期
3 ;[J];;年期
4 ;[J];;年期
5 ;[J];;年期
6 ;[J];;年期
7 ;[J];;年期
8 ;[J];;年期
9 ;[J];;年期
10 ;[J];;年期
中国重要会议论文全文数据库 前1条
1 吴倩;杨逍;张兆心;;基于视觉特征的网页信息提取[A];第六届全国信息检索学术会议论文集[C];2010年
中国重要报纸全文数据库 前1条
1 鸣涧;样式表的应用[N];中国电脑教育报;2002年
中国硕士学位论文全文数据库 前8条
1 宋保江;网络舆情检测与控制关键技术研究[D];哈尔滨工业大学;2010年
2 任平;Web结构挖掘算法研究及改进[D];江苏科技大学;2010年
3 成卫东;Q公司基于网络营销的网站优化改进策略研究[D];电子科技大学;2011年
4 董娟;基于页面结构分析的网页信息抽取方法研究[D];中国石油大学;2010年
5 刘阳;基于内容的搜索引擎网页去重研究[D];江苏大学;2010年
6 于建家;基于多特征的Web页面分块算法MFPS的研究与实现[D];东北大学;2008年
7 李娜;基于Web资源的企业知识服务研究[D];浙江理工大学;2012年
8 祁琛;网页消重技术的研究与实现[D];电子科技大学;2012年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62791813
  • 010-62985026