收藏本站
收藏 | 投稿 | 手机打开
二维码
手机客户端打开本文

一种新的基于概念树的主题网络爬虫方法

谢志妮  
【摘要】:提出一种新的基于概念树的主题网络爬行方法。与传统基于关键词描述主题的方法不同,本文提出基于叙词表来构建一种称为概念树的表示方法来描述主题的概念。在此基础上,本文给出锚文本和HTML页面内容与主题相关度的计算方法。在分析URL的相关度时,首先判断其锚文本的相关度是否达到一定的阈值σ,只有当锚文本的相关度达不到σ时才会去下载URL对应的页面进行分析,否则将锚文本的相关度作为URL的相关度。这样的URL相关度计算方法可以大大减少不必要的计算开销,又可以充分地利用锚文本的信息。为了比较准确合理地获得阈值σ的取值,本文采用了最小均方差(LMS)的方法。

知网文化
【相似文献】
中国期刊全文数据库 前20条
1 宋宣辰;刘贵全;;基于主题概念抽取的多文档文摘方法[J];计算机工程;2010年04期
2 罗三定,黄勇;一个基于具有自学习机制的概念网络的搜索引擎[J];计算机工程;2001年09期
3 李振东,费翔林;基于概念的信息检索模型研究[J];南京大学学报(自然科学版);2002年01期
4 毛雪岷;白石磊;熊范纶;王儒敬;;一种基于证据理论的概念树结构多Agent合作求解模型[J];模式识别与人工智能;2003年03期
5 张超盟;李战怀;温宗臣;;局部上下文分析剪枝概念树的查询扩展[J];计算机工程;2009年14期
6 袁红春,熊范纶;元规则指导下的逐步求精多层空间关联规则挖掘算法[J];计算机工程;2004年08期
7 曾义聪;杨贯中;;基于概念树的主题搜索机器人系统研究[J];科学技术与工程;2006年16期
8 曾海泉,宋扬,刘永丹,胡运发;一个基于Rough集的用户兴趣访问模式的发现算法[J];计算机研究与发展;2002年12期
9 李华莹;罗自强;李德毅;;基于云模型的汽车款式知识表示[J];舰船电子工程;2006年06期
10 时念云;褚希;张金明;;基于语义的决策树挖掘方法研究[J];微计算机应用;2007年12期
11 高玉兰;江澜;;基于概念树的本体生成技术研究[J];电脑知识与技术;2008年13期
12 曲立平;刘大昕;杨静;;基于属性的相对约简格快速渐进式构造算法[J];计算机科学;2008年04期
13 熊亮;基于概念树的文本自动分类系统的研究与实现[J];计算机工程与应用;2005年30期
14 李信利;吕月娥;;基于概念的论文相似性检索[J];计算机工程与应用;2007年21期
15 李信利;聂志强;吕月娥;;基于层次聚类的论文相似性检索[J];微计算机信息;2007年21期
16 牛文斗;赵月红;徐俊波;吴昊;温浩;;设计化学主题数据库的数据集成与实施[J];计算机与应用化学;2010年12期
17 刘齐宏;唐常杰;李川;刘齐巍;曾涛;蒋永光;;基于属性归纳的中药方剂数据挖掘[J];计算机应用;2007年02期
18 张映海;;基于概念树扩展的中文文本检索研究[J];计算机工程与应用;2008年26期
19 王宏显;周强;邬晓钧;;《知网》语义关系图的自动构建[J];中文信息学报;2008年05期
20 王昭龙;李霞;许瑞芳;;多关键字查询中LCA剪枝概念树的查询扩展技术研究[J];计算机科学;2010年04期
中国重要会议论文全文数据库 前10条
1 樊建聪;梁永全;;使用一种训练概念树的半自动本体获取方法[A];2005年中国智能自动化会议论文集[C];2005年
2 刘菁菁;林鸿飞;杨志豪;;基于PageRank和锚文本的网页排序研究[A];第三届学生计算语言学研讨会论文集[C];2006年
3 陈红英;;基于广义表概念树的Web服务匹配[A];第二十七届中国控制会议论文集[C];2008年
4 吴晨;张全;缪建明;韦向峰;;自然语言语义理解下的信息检索模型[A];第三届学生计算语言学研讨会论文集[C];2006年
5 殷华蓓;李通;唐常杰;张天庆;左志松;;从Web文件中挖掘个性化导航知识[A];第十七届全国数据库学术会议论文集(研究报告篇)[C];2000年
6 曹钰;李涛;张文俊;徐宗昌;;基于DW+OLAP的装备器材保障决策支持系统[A];第二十届全国数据库学术会议论文集(技术报告篇)[C];2003年
7 傅琪琦;乐嘉锦;;CRM数据仓库中的数据预处理研究[A];第十八届全国数据库学术会议论文集(研究报告篇)[C];2001年
8 吴国祥;谢丽聪;白清源;谢伙生;张莹;;领域本体在文本分类中的应用[A];第二十四届中国数据库学术会议论文集(技术报告篇)[C];2007年
9 曲立平;刘大昕;杨静;张万松;;基于属性的概念格快速渐进式构造算法[A];第二十四届中国数据库学术会议论文集(研究报告篇)[C];2007年
10 李德毅;;归纳学习:从数据库中发现知识[A];第十届全国数据库学术会议论文集[C];1992年
中国博士学位论文全文数据库 前2条
1 王辉;基于质心具有增量性质的主题爬行[D];吉林大学;2007年
2 傅魁;基于Web的本体学习研究[D];武汉理工大学;2007年
中国硕士学位论文全文数据库 前10条
1 王涛;基于HTML标记的主题爬行器的设计与实现[D];电子科技大学;2009年
2 肖龙滨;智能型搜索引擎的研究[D];兰州理工大学;2009年
3 曾义聪;基于概念树的主题爬取技术研究[D];湖南大学;2005年
4 姚忠存;锚文本增量主题爬行[D];吉林大学;2007年
5 刘菁菁;基于结构和主题的Web信息检索研究[D];大连理工大学;2007年
6 张燕姑;一个双主型的计算机基础智能教学系统的设计与实现[D];华东师范大学;2001年
7 药成刚;基于链接结构的中文网页排序算法研究[D];哈尔滨工业大学;2006年
8 褚希;基于语义的决策树挖掘算法研究[D];中国石油大学;2008年
9 薛艳珠;主题爬行器的研究与实现[D];电子科技大学;2008年
10 姜志峰;基于多数据库系统的多层关联规则挖掘技术研究和实现[D];东南大学;2004年
中国重要报纸全文数据库 前7条
1 贾学颖;他手中的王牌叫管理[N];中国财经报;2004年
2 康宁;康佳重金打造“高清”品牌[N];中国高新技术产业导报;2002年
3 倪凤友;将“健康概念”营销到底[N];中国房地产报;2003年
4 陈延 姚文;清真产业红红火火走天下[N];中国财经报;2006年
5 于冰;巧打资源优势 做足春季滑雪[N];黑龙江日报;2004年
6 吴忠市清真食品产业发展领导小组办公室;清真牛羊肉香飘国内外[N];中国食品质量报;2006年
7 本报记者 解青;“村长”金陵话小康[N];江苏经济报;2002年
中国知网广告投放
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62982499
  • 010-62783978