收藏本站
《情报杂志》 2010年08期
收藏 | 投稿 | 手机打开
二维码
手机客户端打开本文

一种基于正文特征的新闻网页抽取方法

孔胜  王宇  
【摘要】:在统计分析了中文新闻网页的结构和内容特征的基础上,提出一种比较简单实用的基于正文特征的新闻网页抽取方法。该方法首先将HTML网页表示成基于XML的DOM树形式,利用统计的正文特征和节点信息从树中过滤掉噪音数据节点,最后再选取正文节点。该方法相比传统的基于包装器的抽取方法具有简单、实用的特点。实验结果表明,该抽取方法准确率达到94%以上,具有很好的实用价值。

【相似文献】
中国期刊全文数据库 前10条
1 张敏;;信息抽取技术在网页中的应用[J];中国城市经济;2011年20期
2 ;[J];;年期
3 ;[J];;年期
4 ;[J];;年期
5 ;[J];;年期
6 ;[J];;年期
7 ;[J];;年期
8 ;[J];;年期
9 ;[J];;年期
10 ;[J];;年期
中国知网广告投放
相关期刊
>中国城市经济
相关机构
>四平市粮食稽查支队;
相关作者
>张敏
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62791813
  • 010-62985026