收藏本站
《电脑知识与技术(学术交流)》 2007年02期
收藏 | 投稿 | 手机打开
二维码
手机客户端打开本文

基于支持向量机的网页主题信息提取算法

刘军  
【摘要】:为了提取网页中的主题信息,提出了一种基于支持向量机(SVM)的网页主题信息提取算法。该算法首先将整个网页划分成多个不同的信息块;然后根据信息块中的文本、图片、链接及信息块的位置建立其特征向量;通过训练得到SVM的最优分类函数;最后通过最优分类函数的符号判断给定的信息块是否是主题信息。封闭式测试中,指标precision和gain在最高时达到98%和96%;开放式测试中,两指标分别为92%和87%。

知网文化
【相似文献】
中国期刊全文数据库 前6条
1 张宏丽;吴承勇;王海凤;;基于XML/XSL与设备无关的Web服务研究[J];内蒙古大学学报(自然科学版);2006年02期
2 段昕;马军;宋玲;;利用分块重要度进行中文网页分类的研究[J];山东大学学报(理学版);2006年03期
3 刘军;;基于支持向量机的网页主题信息提取算法[J];电脑知识与技术(学术交流);2007年02期
4 罗永莲;秦振吉;;新闻网页主题内容提取方法研究[J];微计算机应用;2007年05期
5 于鲁波;陈超;;互联网商品信息抽取技术[J];计算机工程;2008年05期
6 孙晓辉;刘建;王劲林;陈晓;;基于CSS的网页分割算法[J];微计算机应用;2008年09期
中国博士学位论文全文数据库 前1条
1 李晓黎;WEB信息检索与分类中的数据采掘研究[D];中国科学院研究生院(计算技术研究所);2001年
中国硕士学位论文全文数据库 前1条
1 段昕;基于视觉特征中文网页分类方法的研究[D];山东大学;2007年
中国知网广告投放
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62982499
  • 010-62783978