收藏本站
《计算机应用与软件》 2010年05期
收藏 | 投稿 | 手机打开
二维码
手机客户端打开本文

基于DOM的网页主题信息的抽取

刘军  张净  
【摘要】:随着Internet的发展,Web页面信息量不断加大,信息密集程度不断加强。但Web页面的主题信息通常不太明确,抽取主题信息也比较困难。针对这一难题,提出一种算法:构建文档对象模型DOM(Document Object Model)树,然后针对HTML半结构特征的不足,为DOM添加显示、语义(链接数、非链接文字数、高度、宽度)等属性,并提出一种聚类规则来对其进行分块,最后对其进行剪枝,删除掉无用的信息,提取主题信息。实验表明,该方法能够准确抽取主题信息。
【作者单位】武汉理工大学计算机科学与技术学院;
【分类号】:TP393.092

【共引文献】
中国期刊全文数据库 前10条
1 王茹,宋瀚涛,陆玉昌;基于树自动机的网页数据抽取[J];北京理工大学学报;2004年09期
2 李向阳,陆建江,张亚非;基于竞争分类的Web信息抽取[J];电子学报;2004年11期
3 李向阳;戴江山;张亚非;;一种Web信息抽取规则的优化方法[J];兰州理工大学学报;2006年01期
4 潘晔;任广伟;舒艳;;利用本体进行Web数据集成[J];贵州工业大学学报(自然科学版);2006年03期
5 李石君;于俊清;欧伟杰;;基于HTML模式代数的Web信息提取方法[J];计算机研究与发展;2006年09期
6 王茹,宋瀚涛,陆玉昌;网页数据自动抽取系统[J];计算机工程与应用;2004年19期
7 许建潮,侯锟;Web信息的自主抽取方法[J];计算机工程与应用;2005年14期
8 胡飞;;基于标记树的Web页面区域划分和搜索方法[J];计算机科学;2005年08期
9 王亮,朱征宇;基于扩展标记图的Web信息抽取器[J];计算机工程;2005年08期
10 朱永盛;武港山;;基于Web的新闻信息抽取[J];计算机工程;2006年10期
中国博士学位论文全文数据库 前7条
1 张友华;面向智能服务的Web内容计算研究与应用[D];中国科学技术大学;2006年
2 彭涛;面向专业搜索引擎的主题爬行技术研究[D];吉林大学;2007年
3 张素香;信息抽取中关键技术的研究[D];北京邮电大学;2007年
4 胡国平;基于超大规模问答对库和语音界面的非受限领域自动问答系统研究[D];中国科学技术大学;2007年
5 周顺先;文本信息抽取模型及算法研究[D];湖南大学;2007年
6 董宝力;Web制造资源的语义发现关键技术研究[D];浙江大学;2007年
7 胡燕;基于Web信息抽取的专业知识获取方法研究[D];武汉理工大学;2007年
中国硕士学位论文全文数据库 前10条
1 吕岷;基于XML的产品信息发布系统[D];武汉科技大学;2002年
2 蒋蔚;面向信息化制造的设备状态信息监视系统开发[D];南京航空航天大学;2003年
3 杨友河;基于XML的ERP环境下的人力资源管理系统研究[D];昆明理工大学;2004年
4 赵珺;基于Web的无机材料网络课件开发平台的研究与应用[D];中南大学;2004年
5 刘云中;基于隐马尔可夫模型的文本信息抽取算法研究[D];湖南大学;2004年
6 张谦;基于Web的数据仓库系统在生产计划管理中的应用研究[D];重庆大学;2004年
7 许发见;元数据在教学网站中的应用研究[D];河海大学;2004年
8 林智华;基于XML、Web Services的异构数据共享机制的研究及在电子政务中的应用[D];福州大学;2005年
9 李志欣;基于COM的矢量图形编辑系统的数据管理研究[D];华中科技大学;2004年
10 李永量;基于SALT的网上直销系统的实现[D];四川大学;2004年
【同被引文献】
中国期刊全文数据库 前10条
1 陈志刚,曾志文;中间应用服务器动态负载均衡的物理模型[J];计算机工程;2001年01期
2 陈志刚,李登,曾志文;分布式系统中动态负载均衡实现模型[J];中南工业大学学报(自然科学版);2001年06期
3 王芙蓉,童则余;拦截和转发网络数据包的设计与实现[J];电信快报;2005年04期
4 夏诏杰;梁春燕;郭力;;化学主题网络爬虫的设计和实现[J];计算机工程与应用;2006年10期
5 吕学强,任飞亮,黄志丹,姚天顺;句子相似模型和最相似句子查找算法[J];东北大学学报(自然科学版);2003年06期
6 金博,史彦军,滕弘飞;基于语义理解的文本相似度算法[J];大连理工大学学报;2005年02期
7 李素建;基于语义计算的语句相关度研究[J];计算机工程与应用;2002年07期
8 陈新中,李岩,谢永红,杨炳儒;Web挖掘研究[J];计算机工程与应用;2002年13期
9 马玉春,宋瀚涛;Web中文文本分词技术研究[J];计算机应用;2004年04期
10 黄文蓓;杨静;顾君忠;;基于分块的网页正文信息提取算法研究[J];计算机应用;2007年S1期
中国博士学位论文全文数据库 前1条
1 胡燕;基于Web信息抽取的专业知识获取方法研究[D];武汉理工大学;2007年
中国硕士学位论文全文数据库 前10条
1 马雪梅;分布式系统中主机负载预测[D];吉林大学;2005年
2 陈美云;基于XML的柔性信息集成技术研究[D];山东科技大学;2005年
3 黄笑鹏;可分级视频编解码技术的研究与实现[D];浙江大学;2006年
4 李国俊;基于XML-RPC的分布式网络管理的研究与设计[D];西安电子科技大学;2007年
5 宿兴华;基于P2P的视频下载系统的设计与实现[D];浙江大学;2007年
6 杨波;DOM解析器OnceDOMParser的设计与实现[D];中国科学院研究生院(软件研究所);2005年
7 赵辉;一种基于DOM的XML解析器的设计与实现[D];山西大学;2005年
8 朱南丽;基于DOM的网页主体信息块抽取[D];昆明理工大学;2006年
9 周晓兰;基于XML的WEB数据挖掘[D];中南大学;2007年
10 李跃进;基于Internet的信息抽取技术研究[D];大连理工大学;2005年
【相似文献】
中国期刊全文数据库 前10条
1 郑培昊;肖磊;;基于多维度展现的企业门户发展思路探讨[J];电力信息化;2011年05期
2 孙楠;张华伟;;一种新的用于数据挖掘工具的网页净化算法[J];郑州轻工业学院学报(自然科学版);2011年03期
3 ;[J];;年期
4 ;[J];;年期
5 ;[J];;年期
6 ;[J];;年期
7 ;[J];;年期
8 ;[J];;年期
9 ;[J];;年期
10 ;[J];;年期
中国重要会议论文全文数据库 前10条
1 王琦;唐世渭;杨冬青;王腾蛟;;基于DOM的网页主题信息自动提取[A];第二十一届中国数据库学术会议论文集(研究报告篇)[C];2004年
2 韩杰;廖闻剑;彭艳兵;;基于楼层分割的BBS信息提取[A];中国通信学会第六届学术年会论文集(上)[C];2009年
3 韩杰;廖闻剑;彭艳兵;;基于楼层分割的BBS信息提取[A];中国通信学会第六届学术年会论文集(中)[C];2009年
4 汪建伟;高军;王腾蛟;杨冬青;;一种基于显示属性的网页信息提取方法[A];全国网络与信息安全技术研讨会论文集(上册)[C];2007年
5 刘秉权;王喻红;葛冬梅;李佳;;基于结构树解析的网页正文抽取方法[A];黑龙江省计算机学会2007年学术交流年会论文集[C];2007年
6 吴倩;杨逍;张兆心;;基于视觉特征的网页信息提取[A];第六届全国信息检索学术会议论文集[C];2010年
7 王玉婷;杜亚军;涂腾涛;;基于Web链接的主题爬行虫初始URL的研究[A];第四届全国信息检索与内容安全学术会议论文集(上)[C];2008年
8 梁勇;张文;;网络舆情采集系统的设计[A];2011年全国通信安全学术会议论文集[C];2011年
9 岳昆;李劲;石磐;刘惟一;;基于语义的Web服务主题自动抽取[A];第二十五届中国数据库学术会议论文集(二)[C];2008年
10 李连霞;马军;陈竹敏;;基于多特征的网页内容提取研究[A];第三届和谐人机环境联合学术会议(HHME2007)论文集[C];2007年
中国重要报纸全文数据库 前5条
1 记者 向杰;微软最新IE Dom Oday漏洞曝光[N];科技日报;2010年
2 ;新蠕虫用“令人震惊消息”引诱用户[N];计算机世界;2005年
3 南京工程学院仿真部 施建强;用VB制作网络搜索软件[N];计算机世界;2002年
4 北大天正公司CIO 张明;百兆大邮件也能轻松快捷传递?[N];网络世界;2001年
5 本报特约撰稿 王高华;部署SSL证书中的风险[N];计算机世界;2009年
中国博士学位论文全文数据库 前4条
1 吴永辉;面向专业领域的网络信息采集及主题检测技术研究与应用[D];哈尔滨工业大学;2010年
2 张长利;面向特定领域的互联网舆情分析技术研究[D];吉林大学;2011年
3 谢兴;社会网络中兴趣发现与信息组织的研究[D];复旦大学;2011年
4 张开敏;移动Web浏览系统的若干关键技术研究[D];中国科学技术大学;2012年
中国硕士学位论文全文数据库 前10条
1 连小刚;基于DOM的Web信息抽取系统设计与实现[D];华中科技大学;2009年
2 岳珂;基于自动机的嵌入式HTML解析器的设计与实现[D];重庆大学;2008年
3 石倩;Web信息抽取规则及其学习算法[D];大连海事大学;2008年
4 李猛;基于DOM的Web信息抽取技术的研究与实现[D];大连理工大学;2008年
5 张步泰;嵌入式浏览器的设计与实现[D];天津大学;2008年
6 石硕;可复用Web客户端组件的研究与实现[D];安徽理工大学;2005年
7 曲著伟;基于树匹配的交互式Web数据抽取技术的研究[D];天津大学;2005年
8 王旭东;基于Web的信息抽取技术研究[D];西南交通大学;2008年
9 孟庆祥;基于XML元素处理的Web信息抽取研究与实现[D];北京交通大学;2009年
10 黄文锋;DOM型XSS攻击防范模型研究[D];广州大学;2010年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62791813
  • 010-62985026