收藏本站
《情报杂志》 2010年08期
收藏 | 投稿 | 手机打开
二维码
手机客户端打开本文

一种基于正文特征的新闻网页抽取方法

孔胜  王宇  
【摘要】:在统计分析了中文新闻网页的结构和内容特征的基础上,提出一种比较简单实用的基于正文特征的新闻网页抽取方法。该方法首先将HTML网页表示成基于XML的DOM树形式,利用统计的正文特征和节点信息从树中过滤掉噪音数据节点,最后再选取正文节点。该方法相比传统的基于包装器的抽取方法具有简单、实用的特点。实验结果表明,该抽取方法准确率达到94%以上,具有很好的实用价值。
【作者单位】大连理工大学管理学院;
【关键词】正文特征 网页抽取 DOM模型
【基金】:教育部人文社科研究项目“期刊文献知识元挖掘及知识仓库构建”(编号:09YJA870005)
【分类号】:TP393.092
【正文快照】:
0引言据2008年发布的《中国互联网舆情分析报告》指出,目前我国网民总人数达到2.53亿,网民规模居世界第一位。其中,网络新闻用户增长幅度较大,达到2.06亿。人民网、新华网、央视国际三大新闻网站,新浪、搜狐、网易、腾讯四大商业门户网站,每天新闻更新累积超过2万条,日均新闻

【相似文献】
中国期刊全文数据库 前10条
1 张敏;;信息抽取技术在网页中的应用[J];中国城市经济;2011年20期
2 ;[J];;年期
3 ;[J];;年期
4 ;[J];;年期
5 ;[J];;年期
6 ;[J];;年期
7 ;[J];;年期
8 ;[J];;年期
9 ;[J];;年期
10 ;[J];;年期
中国知网广告投放
相关期刊
>中国城市经济
相关机构
>四平市粮食稽查支队;
相关作者
>张敏
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62791813
  • 010-62985026