基于DIV标签树的网页主题信息抽取方法
【摘要】:随着CSS+DIV布局方式逐渐成为网页结构布局的主流,对此类网页进行高效的主题信息抽取已成为专业搜索引擎的迫切任务之一。提出一种基于DIV标签树的网页主题信息抽取方法,首先根据DIV标签把HTML文档解析成DIV森林,然后过滤掉DIV标签树中的噪声结点并且建立STU-DIV模型树,最后通过主题相关度分析和剪枝算法,剪掉与主题信息无关的DIV标签树。通过对多个新闻网站的网页进行分析处理,实验证明此方法能够有效地抽取新闻网页的主题信息。
|
|
|
|
1 |
欧阳柳波;杨柱;易显;;基于DIV标签树的网页主题信息抽取方法[J];计算机系统应用;2010年07期 |
2 |
;[J];;年期 |
3 |
;[J];;年期 |
4 |
;[J];;年期 |
5 |
;[J];;年期 |
6 |
;[J];;年期 |
7 |
;[J];;年期 |
8 |
;[J];;年期 |
9 |
;[J];;年期 |
10 |
;[J];;年期 |
11 |
;[J];;年期 |
12 |
;[J];;年期 |
13 |
;[J];;年期 |
14 |
;[J];;年期 |
15 |
;[J];;年期 |
16 |
;[J];;年期 |
17 |
;[J];;年期 |
18 |
;[J];;年期 |
19 |
;[J];;年期 |
20 |
;[J];;年期 |
|