收藏本站
《计算机研究与发展》 2004年01期
收藏 | 投稿 | 手机打开
二维码
手机客户端打开本文

基于链接描述文本及其上下文的Web信息检索

张敏  高剑峰  马少平  
【摘要】:文档之间的超链接结构是Web信息检索和传统信息检索的最大区别之一 ,由此产生了基于超链接结构的检索技术 描述了链接描述文档的概念 ,并在此基础上研究链接文本 (anchortext)及其上下文信息在检索中的作用 通过使用超过 16 9万篇网页的大规模真实数据集以及TREC2 0 0 1提供的相关文档及评价方法进行测试 ,得到如下结论 :首先 ,链接描述文档对网页主题的概括有高度的精确性 ,但是对网页内容的描述有极大的不完全性 ;其次 ,与传统检索方法相比 ,使用链接文本在已知网页定位的任务上能够使系统性能提高 96 % ,但是链接文本及其上下文信息无法在未知信息查询任务上改善检索性能 ;最后 ,把基于链接描述文本的方法与传统方法相结合 ,能够在检索性能上提高近 16 %

知网文化
【引证文献】
中国期刊全文数据库 前10条
1 周翔;;基于Websphinx网络爬虫的研究与改进[J];电脑知识与技术;2008年28期
2 高玉良;张济强;白瑶;;基于Lucene的多索引搜索的研究与应用[J];电脑知识与技术;2012年07期
3 付涛;戴玉刚;周登;;链接分析在主题信息检索系统中的应用[J];电脑与电信;2009年01期
4 冯昀;;爬虫技术在网站信息拨测系统中的应用[J];广西通信技术;2012年04期
5 金一宁;王华兵;王德峰;;基于KNN及相关链接的中文网页分类研究[J];哈尔滨商业大学学报(自然科学版);2011年02期
6 朱绍军;兰帆;黄明和;;Web结构挖掘算法研究[J];计算机与信息技术;2009年04期
7 何国斌;赵晶璐;;Web页面主题相关性排序算法的研究[J];计算机工程与应用;2009年23期
8 周德懋;李舟军;;高性能网络爬虫:研究综述[J];计算机科学;2009年08期
9 张泊平;张得喜;;基于网页结构相关性的隐马尔可夫预取技术研究[J];计算机与数字工程;2007年05期
10 王军;彭建;;网络爬虫的结构设计研究[J];科技信息(学术研究);2007年27期
中国博士学位论文全文数据库 前1条
1 王树梅;信息检索相关技术研究[D];南京理工大学;2007年
【同被引文献】
中国期刊全文数据库 前10条
1 李伟;黄颖;;基于HtmlParser的网页信息提取[J];兵工自动化;2007年07期
2 曹元大,贺海军,涂哲明;中文Web文档全文检索系统的设计及实现[J];北京理工大学学报;2002年01期
3 汪涛,樊孝忠,顾益军,刘林;基于概念分析的主题爬虫设计[J];北京理工大学学报;2004年10期
4 孙健,王伟,钟义信;基于K-最近距离的自动文本分类的研究[J];北京邮电大学学报;2001年01期
5 梅翔;孟祥武;陈俊亮;徐萌;;一种基于语义关联的查询优化方法[J];北京邮电大学学报;2006年06期
6 李红梅;丁振国;周水生;周利华;;元搜索引擎结果合成算法[J];北京邮电大学学报;2008年05期
7 张俊丽;张帆;;KNN-FCM聚类算法在中文搜索引擎文本过滤中的应用[J];图书与情报;2007年04期
8 杨树林;;正则表达式在网络教学系统中的应用[J];北京印刷学院学报;2005年04期
9 詹卫东;80年代以来汉语信息处理研究述评──作为现代汉语语法研究的应用背景之一[J];当代语言学;2000年02期
10 徐金雷;杨晓江;;基础教育资源搜索引擎的排序算法研究[J];电化教育研究;2007年02期
中国博士学位论文全文数据库 前10条
1 陈劲光;基于云模型的中文面向查询多文档自动文摘研究[D];华中师范大学;2011年
2 张俊林;基于语言模型的信息检索系统研究[D];中国科学院研究生院(软件研究所);2004年
3 宋枫溪;自动文本分类若干基本问题研究[D];南京理工大学;2004年
4 王建会;中文信息处理中若干关键技术的研究[D];复旦大学;2004年
5 代六玲;互联网内容监管系统关键技术的研究[D];南京理工大学;2005年
6 薛德军;中文文本自动分类中的关键问题研究[D];清华大学;2004年
7 李荣陆;文本分类及其相关技术研究[D];复旦大学;2005年
8 冯国臻;基于结构分析的大规模WWW文本信息检索技术的研究[D];中国科学院研究生院(计算技术研究所);2001年
9 刘悦;WWW上链接分析算法的若干研究[D];中国科学院研究生院(计算技术研究所);2004年
10 彭涛;面向专业搜索引擎的主题爬行技术研究[D];吉林大学;2007年
【二级引证文献】
中国期刊全文数据库 前10条
1 刘洋;滕桂法;王春山;;面向农村的网内药品流转数据分析方法研究[J];河北农业大学学报;2011年02期
2 王春梅;;基于Bloom Filter的网络爬虫URL消重算法研究[J];产业与科技论坛;2011年18期
3 于成龙;于洪波;;网络爬虫技术研究[J];东莞理工学院学报;2011年03期
4 曹忠;赵文静;;一种优化的网络爬虫的设计与实现[J];电脑知识与技术;2008年35期
5 潘文富;郭友实;;网络舆情监测技术研究综述[J];福建电脑;2011年08期
6 李晓鑫;;XiaoQBot网络爬虫设计与实现[J];硅谷;2011年13期
7 谭丽华;董毅明;李林红;;互联网群体智能的涌现[J];管理学报;2010年12期
8 李国庆;鄢靖丰;;基于免疫协同进化的多Agent辅助浏览系统研究[J];成都信息工程学院学报;2012年06期
9 冯昀;;爬虫技术在网站信息拨测系统中的应用[J];广西通信技术;2012年04期
10 周丰;;基于用户查询偏好的搜索排序算法[J];电脑知识与技术;2013年11期
中国重要会议论文全文数据库 前3条
1 李楠;谷利泽;钮心忻;;用于XSS扫描的网络爬虫的设计与实现[A];2010年全国通信安全学术会议论文集[C];2010年
2 韩子扬;李贵;李征宇;王凤英;;基于分布式结构的Deep Web结构化数据抽取系统[A];第九届沈阳科学学术年会论文集[C];2012年
3 韩子扬;李贵;李征宇;王凤英;;基于分布式结构的Deep Web结构化数据抽取系统[A];第九届沈阳科学学术年会论文集(信息科学与工程技术分册)[C];2012年
中国博士学位论文全文数据库 前6条
1 李群;主题搜索引擎聚类算法的研究[D];北京林业大学;2011年
2 吴胜;网站信息分类体系优化方法及其应用[D];南京林业大学;2009年
3 周科松;全文检索与GIS一体化及在应急管理中的应用研究[D];华东师范大学;2009年
4 陈圣兵;基于商空间理论的海量信息检索模型的研究[D];安徽大学;2010年
5 王欣;WEB应用系统安全检测关键技术研究[D];北京邮电大学;2011年
6 张顺香;Web环境下关联语义链接特征分析及其应用研究[D];上海大学;2012年
【相似文献】
中国期刊全文数据库 前10条
1 胡健,陆一鸣,马范援;基于HTML文档结构的向量空间模型的改进[J];情报学报;2005年04期
2 赵喜乐;陈光;;垂直搜索引擎的抓取系统——基于网络蜘蛛技术[J];电脑知识与技术;2009年19期
3 肖燕;20世纪我国信息检索研究的历史回顾[J];图书馆学研究;1999年06期
4 叶鹰,马景娣,黄晨,朱聪,胡晓珍,刘琼;信息检索网上自助教学探索[J];大学图书馆学报;2000年02期
5 李慧敏,方敏,张雪梅;高校信息检索教育课教学改革构想[J];山东图书馆季刊;2001年02期
6 吴良凯;大学生信息检索教育的现状与对策[J];图书馆论坛;2003年05期
7 罗映红;基于网络的信息检索与信息检索能力的培养[J];高校图书馆工作;2004年02期
8 李其港;对高职信息检索课程教学改革的构思[J];职教论坛;2004年23期
9 李宙星;;浅析互联网信息超载[J];中国西部科技;2004年16期
10 陈璐;;亚马逊网络书店的信息检索[J];图书馆研究与工作;2004年04期
中国重要会议论文全文数据库 前10条
1 孙金立;李路路;王栋;;生物信息检索教学网的建设[A];向数字化转型的图书馆工作[C];2004年
2 姚树宇;赵少东;;一种使用分布式技术的搜索引擎[A];2005年全国开放式分布与并行计算学术会议论文集[C];2005年
3 孙金立;李路路;董明强;;建立生物信息检索教学网的研究[A];中华医学会第十次全国医学信息学术会议论文汇编[C];2004年
4 ;编者的话[A];第二届全国信息检索与内容安全学术会议(NCIRCS-2005)论文集[C];2005年
5 米晓红;;一种基于LSI的用户兴趣模型构建方法[A];计算机技术与应用进展——全国第17届计算机科学与技术应用(CACIS)学术会议论文集(上册)[C];2006年
6 王敬成;;HNC农村智能信息检索系统[A];2006年首届ICT大会信息、知识、智能及其转换理论第一次高峰论坛会议论文集[C];2006年
7 李应兴;付婷;李勇;;基于LUCENE的藏文信息检索的研究与应用[A];民族语言文字信息技术研究——第十一届全国民族语言文字信息学术研讨会论文集[C];2007年
8 于志刚;杨金生;;农业机械网络书签[A];第十三次全国农机维修学术会议论文集[C];2007年
9 ;前言[A];第四届全国信息检索与内容安全学术会议论文集(下)[C];2008年
10 田田;马军;李跃军;;应用多本体进行信息检索的研究[A];第二十二届中国数据库学术会议论文集(研究报告篇)[C];2005年
中国重要报纸全文数据库 前10条
1 希安;微软试水信息检索[N];经济日报;2004年
2 叶静;开辟信息检索的新天地[N];人民邮电;2001年
3 本报记者 潘永花;组件化平台提升信息检索效率[N];网络世界;2003年
4 刘静一;个人档案信息检索[N];建筑报;2000年
5 刘光强;搜索个人、企业、垂直三大搜索新进展[N];中国计算机报;2007年
6 柏荣;国家973项目在因特网大规模信息检索领域取得突破[N];中国高新技术产业导报;2003年
7 刘立新;信息社会技术前瞻[N];学习时报;2006年
8 常燕杰;商用搜索 须打智慧牌[N];中国计算机报;2006年
9 微软中国研究院 陈正 李明镜 马维英;互联网上图像信息检索[N];计算机世界;2001年
10 夏飞平 蒋光君;深圳局:信息检索实现“一点通”[N];中国国门时报;2009年
中国博士学位论文全文数据库 前10条
1 王彪;信息检索中信息需求域的研究[D];内蒙古大学;2012年
2 左家莉;信息检索中Markov网络图模型研究[D];江西财经大学;2011年
3 吴定峰;基于本体的语义搜索模型研究[D];中国农业科学院;2012年
4 董道国;高维数据索引结构研究[D];复旦大学;2005年
5 林建方;词搭配抽取及在信息检索中的应用研究[D];哈尔滨工业大学;2010年
6 翟海军;面向Web信息检索的知识挖掘[D];中国科学技术大学;2010年
7 郭永明;XML文档交互式信息检索技术研究[D];东华大学;2010年
8 林古立;互联网信息检索中的多样化排序研究及应用[D];华南理工大学;2011年
9 刘云峰;基于潜在语义分析的中文概念检索研究[D];华中科技大学;2005年
10 汪志鹏;私有信息检索技术研究[D];华中科技大学;2013年
中国硕士学位论文全文数据库 前10条
1 乔智勇;Web数据挖掘系统的设计及关键技术研究[D];西安电子科技大学;2002年
2 杨才峰;基于自动分类的元搜索引擎的研究与应用[D];华北电力大学(河北);2005年
3 郭磊;P2P系统中的信息检索理论及应用研究[D];山东师范大学;2011年
4 宋海林;基于语言模型的信息检索中负反馈技术的研究与实现[D];内蒙古大学;2011年
5 管玉娟;基于智能Agent的个性化信息检索技术研究[D];西安建筑科技大学;2005年
6 杭月芹;基于文档查询信息的检索系统研究与实现[D];扬州大学;2005年
7 刘壁松;策略可扩展的搜索引擎研究和实现[D];清华大学;2005年
8 史锦荣;基于多Agent智能搜索引擎模型研究[D];太原理工大学;2005年
9 胡小睿;基于Web挖掘的搜索引擎技术研究[D];武汉大学;2005年
10 吴媛媛;移动终端上个人信息检索核心子系统的设计与实现[D];北京邮电大学;2011年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62791813
  • 010-62985026