收藏本站
《成都信息工程学院学报》 2007年S1期
收藏 | 投稿 | 手机打开
二维码
手机客户端打开本文

基于DOM规范的网页分析技术研究

林昌平  郑皎凌  
【摘要】:基于DOM树模型进行网页建模,同时利用深度优先的递归算法对DOM树模型进行遍历。通过将HTML文档转换为DOM树,对其遍历后给树的节点唯一标号来对网页进行分析。为了更直观的分析网页结构还采用图形界面的形式来显示树型DOM文档。实验表明,提出的这种方法能够很好地分析Web页面标记的嵌套结构,并能准确地与转化成DOM树之后的嵌套结构相匹配,从而达到了精确的网页分析和网页节点定位的目的。
【作者单位】成都信息工程学院软件工程系 成都信息工程学院软件工程系
【分类号】:TP393.092

【引证文献】
中国期刊全文数据库 前1条
1 柳永念;钟诚;焦小焦;;基于单元识别的网页信息抽取方法[J];广西大学学报(自然科学版);2011年05期
中国硕士学位论文全文数据库 前2条
1 王莹;从互联网上挖掘双语语料的研究与实现[D];华东师范大学;2011年
2 高加旺;基于支持向量机的垃圾邮件过滤模型研究[D];哈尔滨理工大学;2008年
【参考文献】
中国期刊全文数据库 前1条
1 朱永盛;武港山;;基于Web的新闻信息抽取[J];计算机工程;2006年10期
中国硕士学位论文全文数据库 前2条
1 朱南丽;基于DOM的网页主体信息块抽取[D];昆明理工大学;2006年
2 苟全登;基于XML的半结构化Web信息提取的研究[D];电子科技大学;2006年
【共引文献】
中国期刊全文数据库 前10条
1 赵文;唐建雄;高庆锋;;基于统计的中文网页正文抽取的研究[J];电脑知识与技术;2008年01期
2 朱晴;姜利群;张言辉;;半结构化的Deep Web信息抽取技术[J];电脑知识与技术;2010年15期
3 胡瑜;王立志;;基于HTML结构特征的网页信息提取[J];辽宁石油化工大学学报;2009年03期
4 陈天;黄敏;;Web信息抽取中的数据交叉定位[J];华南理工大学学报(自然科学版);2008年05期
5 张霞亮;陈家骏;;基于逻辑行和最大接纳距离的网页正文抽取[J];计算机工程与应用;2009年25期
6 梁正友;欧杰;俞闽敏;;基于图文有效信息量的网页正文定位[J];计算机工程;2011年23期
7 方辉;谭建荣;谭颖;冯毅雄;;基于Web的制造信息主动推荐服务研究[J];计算机集成制造系统;2008年11期
8 姜子进;吐尔根·依布拉音;赛依旦·阿不力米提;田生伟;;Web环境下自动获取汉、维语料库[J];计算机应用与软件;2011年12期
9 李烯;徐朝军;;基于分块和统计相结合的新闻正文抽取[J];情报理论与实践;2010年01期
10 张琼;封化民;何文才;;一种基于反馈学习机制的支持向量机网页分类方法[J];北京电子科技学院学报;2008年02期
中国重要会议论文全文数据库 前1条
1 王春元;张韬;;一种获取网页主要中文信息的方法[A];全国计算机安全学术交流会论文集(第二十四卷)[C];2009年
中国博士学位论文全文数据库 前3条
1 方辉;机械制造信息资源的非规范知识处理技术研究[D];四川大学;2007年
2 胡燕;基于Web信息抽取的专业知识获取方法研究[D];武汉理工大学;2007年
3 王春元;公共网络信息系统安全管理的研究[D];合肥工业大学;2009年
中国硕士学位论文全文数据库 前10条
1 王乐超;Web环境下文献信息的提取与匹配研究[D];大连理工大学;2010年
2 方少卿;Web就业信息抽取系统的实现研究[D];合肥工业大学;2010年
3 吕楠;话题追踪与演化分析技术研究[D];解放军信息工程大学;2009年
4 陶小波;电子就业文本挖掘系统关键技术研究与应用[D];浙江工商大学;2011年
5 任昌;基于多特征融合的网页对象自动定位技术研究[D];中北大学;2011年
6 刘力;科技文档信息抽取与格式化技术研究[D];中南大学;2010年
7 周洪喜;基于人工标注技术的网页内容抽取系统开发[D];复旦大学;2010年
8 金川明;垂直搜索引擎研究与实现[D];云南大学;2011年
9 杨方蓉;Web信息内容变化检测技术研究与实现[D];西南交通大学;2011年
10 周炘;面向电子商务网站的深度搜索与信息抽取研究[D];江西师范大学;2011年
【同被引文献】
中国期刊全文数据库 前10条
1 李伟;黄颖;;基于HtmlParser的网页信息提取[J];兵工自动化;2007年07期
2 魏大威;利用WGET实现网络文献保存和发布的技术探讨[J];国家图书馆学刊;2004年02期
3 洪艳;程克勤;;基于电子邮件原理的垃圾邮件过滤策略[J];电脑知识与技术(学术交流);2007年09期
4 李国明;汤文亮;;反垃圾邮件技术及其最新展望[J];电脑知识与技术(学术交流);2007年16期
5 苏一丹,陈琴,覃华;用SMIL和视频点播系统解决多媒体课件制作和共享问题[J];广西科学院学报;2002年04期
6 杨柳;谢宁;钟诚;陆向艳;;基于UML建模的电子病历系统设计与实现[J];广西大学学报(自然科学版);2008年04期
7 陈琴;簇群效应:欠发达地区远程教育力量的整合和优化[J];广西大学学报(哲学社会科学版);2002年02期
8 李维刚;刘挺;张宇;李生;;基于长度和位置信息的双语句子对齐方法[J];哈尔滨工业大学学报;2006年05期
9 佟晓筠;宋国龙;刘强;张俐;姜伟;;中文分词及词性标注一体化模型研究[J];计算机科学;2007年09期
10 陈琼,苏文健;基于网页结构树的Web信息抽取方法[J];计算机工程;2005年20期
中国重要会议论文全文数据库 前1条
1 刘非凡;赵军;徐波;;大规模非限定领域汉英双语语料库建设及句子对齐研究[A];语言计算与基于内容的文本处理——全国第七届计算语言学联合学术会议论文集[C];2003年
中国硕士学位论文全文数据库 前5条
1 张启宇;基于贝叶斯算法的垃圾邮件过滤系统的研究与设计[D];曲阜师范大学;2006年
2 盛鹏;基于全文过滤的垃圾邮件防范机制[D];昆明理工大学;2006年
3 彭时名;中文文本分类中特征提取算法研究[D];重庆大学;2006年
4 曹兆龙;基于支持向量机的多分类算法研究[D];华东师范大学;2007年
5 温源;基于FPGA的正则表达式匹配引擎的设计[D];哈尔滨工程大学;2009年
【二级引证文献】
中国期刊全文数据库 前2条
1 叶昭晖;杨高峰;杨岳湘;;一种基于潜语义分析的中文网页自动摘要方法[J];广西大学学报(自然科学版);2012年02期
2 尚涛;郭正宇;王彦盛;;一种高准确率的垃圾邮件识别方法[J];华中科技大学学报(自然科学版);2011年S2期
中国硕士学位论文全文数据库 前1条
1 李志彤;邮件分类的意群算法研究[D];北京化工大学;2012年
【二级参考文献】
中国期刊全文数据库 前10条
1 王茹,宋瀚涛,陆玉昌;基于树自动机的网页数据抽取[J];北京理工大学学报;2004年09期
2 张绍华,徐林昊,杨文柱,薛文玲,李天柱;基于样本实例的Web信息抽取[J];河北大学学报(自然科学版);2001年04期
3 陈少飞,郝亚南,李天柱,徐林昊,杨文柱;Web信息抽取技术研究进展[J];河北大学学报(自然科学版);2003年01期
4 孟小峰;Web数据管理研究综述[J];计算机研究与发展;2001年04期
5 胡东东,孟小峰;一种基于树结构的Web数据自动抽取方法[J];计算机研究与发展;2004年10期
6 王琦,唐世渭,杨冬青,王腾蛟;基于DOM的网页主题信息自动提取[J];计算机研究与发展;2004年10期
7 李青山,陈平;一种基于内容的HTML到XML转换策略[J];计算机工程与应用;2001年09期
8 李保利,陈玉忠,俞士汶;信息抽取研究综述[J];计算机工程与应用;2003年10期
9 王庆一,王继成,周源远,袁春风;多信息块Web页面中的抽取规则[J];计算机工程;2003年09期
10 李效东,顾毓清;基于DOM的Web信息提取[J];计算机学报;2002年05期
中国硕士学位论文全文数据库 前4条
1 杨文柱;基于领域知识和信息抽取的个性化Web查询系统[D];河北大学;2002年
2 陈少飞;Web信息抽取规则的优化及规则的XQuery表达[D];河北大学;2003年
3 邓丽;面向主题的XML网页的模式和数据抽取[D];华侨大学;2004年
4 狄慧;基于Agent的Web信息抽取研究[D];大连理工大学;2004年
【相似文献】
中国期刊全文数据库 前10条
1 刘琴;昝风彪;;基于AJAX技术的动态树型结构的设计与实现[J];科技信息(科学教研);2007年31期
2 何成万,闵华清;一个基于Java和XML的Web应用软件开发模型研究[J];计算机应用;2001年S1期
3 吴元杰;阚文第;祁明龙;;JBuiler2006下XML解析技术探析[J];软件导刊;2007年15期
4 桂绍钢;;Gei基于Java的XML解析器实现[J];电脑知识与技术;2010年27期
5 陈兴帮;庄海军;;基于DOM的WEB表单信息的提取技术[J];机械制造与自动化;2008年03期
6 赵玉珍;戴小平;;利用XML和C#实现异构数据源的数据集成[J];安徽工业大学学报(自然科学版);2008年01期
7 杨鑫阁,冯岩,宋晓燕,刘文捷,王慧强;XML技术在J2EE中的应用[J];自动化技术与应用;2001年05期
8 孙荣胜,李志华,施明辉,徐天鹏;XML与汽车零部件信息采集系统的研究与实现[J];计算机应用;2002年02期
9 韩桂英,李锡祚;基于XML的网络课件标准化问题的研究与设计[J];微电子学与计算机;2002年11期
10 杨厚群;XML在ASP服务端的应用研究[J];计算机系统应用;2002年02期
中国重要会议论文全文数据库 前10条
1 刘飚;刘艳敏;封化民;方勇;宋国森;;基于新型坐标树的页面分析和内容提取方法[A];第二届全国信息检索与内容安全学术会议(NCIRCS-2005)论文集[C];2005年
2 Aymara Fernandez;;Complexation of Arsenite with Humic Acid in the Presence of Ferric Iron[A];第六届全国环境化学大会暨环境科学仪器与分析仪器展览会摘要集[C];2011年
3 封盛;张铭;;基于DOM树的半指导科技文献元数据自动抽取[A];第二十四届中国数据库学术会议论文集(技术报告篇)[C];2007年
4 周巍;孙冰;战立明;吕建华;王国仁;于戈;;基于DOM模型的XML查询处理器的设计与实现[A];第十八届全国数据库学术会议论文集(研究报告篇)[C];2001年
5 王彦敏;卢刚;;基于PixelGrid实现DOM的快速更新[A];地理信息与物联网论坛暨江苏省测绘学会2010年学术年会论文集[C];2010年
6 周亚男;张思玉;陈景文;;DOM敏化抗抑郁药安非它酮间接光解机制研究[A];第六届全国环境化学大会暨环境科学仪器与分析仪器展览会摘要集[C];2011年
7 黄国城;孟凡刚;周忠波;李建;黄励晖;;河水DOM的生物转化机制研究[A];第六届全国环境化学大会暨环境科学仪器与分析仪器展览会摘要集[C];2011年
8 王琦;唐世渭;杨冬青;王腾蛟;;基于DOM的网页主题信息自动提取[A];第二十一届中国数据库学术会议论文集(研究报告篇)[C];2004年
9 刘叶;蔡美芳;乔显亮;;畜禽粪便来源DOM对土壤吸附土霉素的影响[A];第六届全国环境化学大会暨环境科学仪器与分析仪器展览会摘要集[C];2011年
10 陈健;卢刚;;数字正射影像图的投影变换[A];江苏省测绘学会2007'学术年会论文集[C];2008年
中国重要报纸全文数据库 前10条
1 记者 向杰;微软最新IE Dom Oday漏洞曝光[N];科技日报;2010年
2 邓爱媛;注考:最后冲刺 贵在坚持[N];财会信报;2007年
3 中国贸促会;多米尼加汽车零备件销售分析[N];中国民族报;2001年
4 顾晓红;“喜欢那种透明”[N];联合时报;2000年
5 本报记者 沈祖芸;当“影响”成为一种常态[N];中国教育报;2005年
6 本报记者 李卓然 嵇锦宏;发展玉米经济 建设亚洲第一产业链[N];中国税务报;2001年
7 本报记者 唐斌;在管理软件市场中淘金[N];计算机世界;2001年
8 国家国有资产管理局;关于做好2008年度财务决算管理备案工作的通知[N];中国财经报;2007年
9 杜宏佳林锋;海天码头RCMS系统成功试运行[N];中国水运报;2007年
10 李语实;桑塔纳 价格重组促销灵活[N];中国物资报;2000年
中国博士学位论文全文数据库 前10条
1 张玉涛;光照和DOM对水体中汞转化的影响机制及动力学研究[D];西南大学;2011年
2 周斌;河水漫溢对荒漠河岸林植被及土壤的影响[D];新疆大学;2011年
3 田文春;基于PKI的通信网安全技术与应用研究[D];华南理工大学;2002年
4 李光荣;面向虚拟企业的零件工艺信息系统关键技术研究[D];南京理工大学;2005年
5 周健;结构化对等网络中的关键技术研究[D];中国科学技术大学;2008年
6 孙瑜;本体修正[D];中国科学院研究生院(计算技术研究所);2006年
7 徐琴珍;树型混合学习模型及其应用研究[D];东南大学;2006年
8 卜爱国;嵌入式系统动态低功耗设计策略的研究[D];东南大学;2006年
9 范颖捷;XML索引与查询的若干关键技术研究[D];复旦大学;2008年
10 胡甜;无线Ad Hoc网络中的组播路由算法研究[D];中国科学技术大学;2008年
中国硕士学位论文全文数据库 前10条
1 连小刚;基于DOM的Web信息抽取系统设计与实现[D];华中科技大学;2009年
2 张文;一种新型原生XML数据库——MyNXD的设计与实现[D];华东师范大学;2006年
3 李娟娟;用三维荧光技术研究DOM在人工湿地中的降解及其与染料的结合作用[D];西南大学;2011年
4 程建;嵌入式浏览器DOM研究与设计[D];电子科技大学;2011年
5 刘铭;XML相关技术研究[D];电子科技大学;2011年
6 岳珂;基于自动机的嵌入式HTML解析器的设计与实现[D];重庆大学;2008年
7 王鑫;基于线特征的DOM与DLG配准方法的研究[D];武汉大学;2005年
8 赵静;基于XML和多层结构理论的营养咨询系统的设计与实现[D];山东大学;2005年
9 姚跃;中职信息技术技能考核系统设计与实现[D];湖南师范大学;2007年
10 石倩;Web信息抽取规则及其学习算法[D];大连海事大学;2008年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62791813
  • 010-62985026