收藏本站
收藏 | 投稿 | 手机打开
二维码
手机客户端打开本文

基于DOM的Web信息提取

李效东  顾毓清  
【摘要】:当前 ,Web已经成为人们获取信息的主要渠道之一 .然而 ,用于表达 Web页面信息的 HTML语言存在着与生俱来的缺点 .HTML 的“标记”只是告诉浏览器软件如何显示所定义的信息 ,却不包含任何语义 .因此由HTML语言所表述的 Web页面经过浏览器分析后只适合人们浏览 ,不适合作为一种数据交换的方式由机器处理 .该文以文档对象模型 DOM为基础 ,把所要提取的信息在 DOM层次结构中的路径作为信息抽取的“坐标”,并以这个基本原理为基础设计了一种归纳学习算法来半自动地生成提取规则 ,然后根据提取规则生成 Java类 .生成的 Ja-va类可以作为 Web数据源包装器组成的重要构件 .

知网文化
【相似文献】
中国期刊全文数据库 前20条
1 胡少伟;;XML路径表达式的查询优化技术[J];科学之友(B版);2009年08期
2 李熙;徐德智;;基于模式的XML查询重写研究[J];中国科技信息;2009年12期
3 车五一;;基于Xpath的XML安全访问控制方法[J];辽宁石油化工大学学报;2007年02期
4 姚全珠;丁晓剑;;处理XML文档查询的高效结构连接方法[J];计算机工程;2006年18期
5 范新灿;杨丽娟;;基于路径表达式的XML查询优化模型研究与设计[J];情报杂志;2008年11期
6 曹建英;;基于路径表达式的XML查询优化方法[J];陇东学院学报(自然科学版);2005年02期
7 沈剑沧;鲍培明;;XML在图书查询系统中的实现技术[J];现代图书情报技术;2006年10期
8 沈剑沧;鲍培明;;XML查询方法的设计与研究[J];计算机工程;2007年21期
9 范新灿;;XML查询优化模型XQO的研究设计[J];计算机工程与应用;2009年19期
10 郝森;朱战立;;对XML文档结构树形表示的研究与实现[J];现代电子技术;2007年18期
11 汪丽媛,丁振凡;网络课件从数据库至XML形式的转换研究[J];福建电脑;2005年12期
12 原建伟;;基于内容分析的数据挖掘研究[J];河北工业科技;2011年05期
13 马永进;金炳尧;;网页制作自动阅卷的实现方法[J];浙江师范大学学报(自然科学版);2007年04期
14 丁道峰;吴红伟;王晓玲;周傲英;;D(k,l)-索引:一种自适应的XML数据索引[J];计算机科学;2004年10期
15 张白一,袁琴琴;XML树型结构数据转换成JTree图形的一种方法[J];微计算机应用;2005年05期
16 张剑妹;陶世群;段洪秀;;一种基于完整性约束的路径表达式的查询优化策略[J];计算机科学;2006年03期
17 罗云深;陈志泊;;DOM驱动型智能体在计算任务中的研究与实现[J];计算机应用;2007年09期
18 蒋美仙;路燕;;一种新的基于编码的XML结构连接算法[J];山东科技大学学报(自然科学版);2009年02期
19 何标;;文档对象模型(DOM)及其应用[J];现代商贸工业;2009年11期
20 刘明华;;基于XML和ASP的留言簿系统设计与实现[J];微型电脑应用;2009年03期
中国重要会议论文全文数据库 前10条
1 吕建华;王国仁;于戈;;XML数据的存储、索引和查询优化技术及其性能评价[A];第十九届全国数据库学术会议论文集(研究报告篇)[C];2002年
2 王静;孟小峰;王珊;;以目标节点为导向的XML路径查询处理[A];第二十届全国数据库学术会议论文集(研究报告篇)[C];2003年
3 傅珊珊;雷庆;吴扬扬;;从XML到关系数据模型的映射[A];第二十三届中国数据库学术会议论文集(技术报告篇)[C];2006年
4 张昱;吴年;;XML数据流的过滤与查询技术[A];第二十一届中国数据库学术会议论文集(技术报告篇)[C];2004年
5 梁宇奇;周傲英;郑仕辉;季文;张龙;;用关系数据库存储XML数据的索引技术[A];第十八届全国数据库学术会议论文集(技术报告篇)[C];2001年
6 祝建军;黄冬梅;;XML文档更新时键约束保持的研究与实现[A];第二十一届中国数据库学术会议论文集(技术报告篇)[C];2004年
7 王静;孟小峰;王珊;;SUPEX:一种基于模式的XML路径索引[A];第十九届全国数据库学术会议论文集(研究报告篇)[C];2002年
8 岳昆;郭志懋;胥正川;周傲英;;从XML键到关系数据库函数依赖[A];第十九届全国数据库学术会议论文集(技术报告篇)[C];2002年
9 ;基于DTD的XML路径表达式查询优化(英文)[A];第二十一届中国数据库学术会议论文集(技术报告篇)[C];2004年
10 吕建华;周巍;孙冰;王国仁;于戈;;XML查询中RPE索引技术研究[A];第十八届全国数据库学术会议论文集(研究报告篇)[C];2001年
中国博士学位论文全文数据库 前10条
1 沈洁;基于自动机的XML数据过滤研究[D];哈尔滨工程大学;2010年
2 叶晓峰;基于XML的冲压模具设计知识重用技术研究[D];华中科技大学;2010年
3 殷丽凤;不完全信息环境下XML数据库规范化问题的研究[D];哈尔滨理工大学;2009年
4 张晨静;XML关键字过滤技术[D];复旦大学;2011年
5 宁博;XML查询模式匹配及文档过滤技术研究[D];东北大学;2009年
6 汪源;XML事务模型及并发控制研究[D];浙江大学;2006年
7 路燕;基于多DTD的XML查询技术研究[D];复旦大学;2003年
8 许建军;对结构化和半结构化数据的关键字搜索研究[D];复旦大学;2007年
9 刘喜平;XML文档搜索中的查询处理技术研究[D];江西财经大学;2010年
10 李荷华;面向智能体的化工过程运行系统信息集成模型研究[D];华南理工大学;2003年
中国硕士学位论文全文数据库 前10条
1 沈剑沧;XML查询方法研究[D];华东师范大学;2006年
2 段洪秀;一种基于关系数据库的XML文档存储和查询的方法[D];山西大学;2006年
3 陈波;XML文档数据查询技术研究[D];山东大学;2005年
4 文华南;支持数据更新的XML压缩编码研究[D];湖南师范大学;2010年
5 赵九震;XML数据查询的关键技术研究[D];山东大学;2010年
6 刘玲;一种通用Web信息抽取系统的研究与实现[D];西南石油大学;2007年
7 白林;基于路径表达式的XML索引查询技术[D];郑州大学;2010年
8 魏长芳;基于二次索引技术的XML查询研究[D];中国石油大学;2010年
9 朱杰;基于主题和结构的XML网页的数据抽取[D];华侨大学;2005年
10 刘靖超;面向数据采集的信息集成系统设计与实现[D];河北工业大学;2005年
中国重要报纸全文数据库 前10条
1 秦林;《XML完全探索》[N];中华读书报;2001年
2 本报记者 李瀛寰;XML推了网络一把[N];中国计算机报;2000年
3 ;分化并不能阻止XML发展[N];中国计算机报;2000年
4 ;为XML标准定标准[N];中国计算机报;2001年
5 IDG电讯;Microsoft、IBM共同制定XML标准[N];计算机世界;2000年
6 北京邮电大学 张剑;XML与HTML的结合(上)[N];计算机世界;2001年
7 本报记者 陆 杰;XML丛林的新秀[N];中华读书报;2002年
8 北京邮电大学 张剑;XML技术预览[N];计算机世界;2001年
9 北京邮电大学 张剑;XML与HTML的结合(下)[N];计算机世界;2001年
10 侯青;国际电子商务XML/EDI特点及现状[N];国际商报;2001年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62982499
  • 010-62783978