收藏本站
《计算机研究与发展》 2004年10期
收藏 | 投稿 | 手机打开
二维码
手机客户端打开本文

基于DOM的网页主题信息自动提取

王琦  唐世渭  杨冬青  王腾蛟  
【摘要】:Web页面所表达的主要信息通常隐藏在大量无关的结构和文字中 ,使用户不能迅速获取主题信息 ,限制了Web的可用性 ,信息提取有助于解决这一问题 基于DOM规范 ,针对HTML的半结构化特征和缺乏语义描述的不足 ,提出含有语义信息的STU DOM树模型 将HTML文档转换为STU DOM树 ,并对其进行基于结构的过滤和基于语义的剪枝 ,能够准确地提取出主题信息 方法不依赖于信息源 ,而且不改变源网页的结构和内容 ,是一种自动、可靠和通用的方法 具有可观的应用价值 ,可应用于PAD和手机上的Web浏览以及信息检索系统

【相似文献】
中国期刊全文数据库 前10条
1 罗桂兰;段发梅;张丽娜;朱翻;刘朝明;;一种改进的BNS网络论坛搜索算法[J];大理学院学报;2011年04期
2 崔晓晖;印桂生;;基于匹配算法的服务发现本体模型[J];计算机应用研究;2011年08期
3 贾志洋;崔博文;王勇刚;石宜金;;搜索引擎垃圾网页技术分析[J];情报探索;2011年07期
4 王晓艳;梁晋春;郭晓霞;姚颖颖;汪瑛;;基于互联网的数字媒体内容舆情分析系统[J];计算机系统应用;2011年08期
5 冯曦曦;朱学芳;;基于Spring框架的农业网站信息资源采集器设计与实现[J];信息化研究;2011年03期
6 殷彬;杨会志;;灵活结构网页的正文提取[J];计算机技术与发展;2011年09期
7 ;[J];;年期
8 ;[J];;年期
9 ;[J];;年期
10 ;[J];;年期
中国重要会议论文全文数据库 前10条
1 昝红英;苏玉梅;孙斌;俞士汶;;基于浅层分析的网页相关度研究[A];语言计算与基于内容的文本处理——全国第七届计算语言学联合学术会议论文集[C];2003年
2 韩杰;廖闻剑;彭艳兵;;基于楼层分割的BBS信息提取[A];中国通信学会第六届学术年会论文集(上)[C];2009年
3 韩杰;廖闻剑;彭艳兵;;基于楼层分割的BBS信息提取[A];中国通信学会第六届学术年会论文集(中)[C];2009年
4 王琦;唐世渭;杨冬青;王腾蛟;;基于DOM的网页主题信息自动提取[A];第二十一届中国数据库学术会议论文集(研究报告篇)[C];2004年
5 孙铁利;教巍巍;;基于马尔科夫模型的用户兴趣导航模型系统(英文)[A];计算机技术与应用进展——全国第17届计算机科学与技术应用(CACIS)学术会议论文集(上册)[C];2006年
6 刘世杰;唐世渭;杨冬青;王腾蛟;姚小波;;自动的WEB信息提取和集成[A];第十九届全国数据库学术会议论文集(技术报告篇)[C];2002年
7 李纪华;夏薇;;基于XML的web信息提取方法研究[A];全国高校社科信息资料研究会第六次会员代表大会暨第13次学术研讨会论文集[C];2010年
8 吴丽辉;张凯;张刚;王斌;;个性化Web信息采集系统PSearch的设计[A];全国第八届计算语言学联合学术会议(JSCL-2005)论文集[C];2005年
9 李德仁;;论广义空间信息网格和狭义空间信息网格[A];中国测绘学会第八次全国会员代表大会暨2005年综合性学术年会论文集[C];2005年
10 姜丽华;张宏斌;;基于Multi-Agent的个性化Web信息采集系统[A];中国农业信息科技创新与学科发展大会论文汇编[C];2007年
中国重要报纸全文数据库 前3条
1 海量智能计算技术研究中心 霍刚;新兴技术为互联网加速[N];计算机世界;2007年
2 萧风 贺锐;“水王”是怎么炼成的[N];电脑报;2005年
3 王尊义, 卢湖川;基于应用层协议进行邮件监听[N];计算机世界;2005年
中国博士学位论文全文数据库 前4条
1 许建潮;Web挖掘中若干问题的研究[D];吉林大学;2005年
2 白岩;基于本体的移动Agent通信技术研究[D];吉林大学;2006年
3 王增权;基于移动Agent的协同式后入侵检测技术研究[D];哈尔滨工程大学;2008年
4 万源;基于语义统计分析的网络舆情挖掘技术研究[D];武汉理工大学;2012年
中国硕士学位论文全文数据库 前10条
1 张磊;基于Internet的智能信息挖掘系统建模及关键技术研究[D];西北工业大学;2003年
2 曹鲁慧;远程教育中基于语义Web的信息处理技术研究[D];山东大学;2005年
3 刘慧;基于表格结构的Web信息提取技术研究[D];燕山大学;2009年
4 尹本雄;中文搜索引擎中的文档特征提取研究[D];广西师范大学;2004年
5 武琼;基于元数据的web信息提取方法研究[D];山西大学;2003年
6 邵延振;基于Web挖掘的信息提取与推荐相关研究[D];广西师范大学;2010年
7 万乐;网页的预处理技术[D];吉林大学;2008年
8 孙及园;对Web网页的信息提取技术的研究[D];福州大学;2001年
9 齐海凤;网络舆情热点发现与事件跟踪技术研究[D];哈尔滨工程大学;2008年
10 董素芬;Web信息显示格式转换技术研究[D];河北农业大学;2008年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62791813
  • 010-62985026