收藏本站
《计算机学报》 2002年05期
收藏 | 投稿 | 手机打开
二维码
手机客户端打开本文

基于DOM的Web信息提取

李效东  顾毓清  
【摘要】:当前 ,Web已经成为人们获取信息的主要渠道之一 .然而 ,用于表达 Web页面信息的 HTML语言存在着与生俱来的缺点 .HTML 的“标记”只是告诉浏览器软件如何显示所定义的信息 ,却不包含任何语义 .因此由HTML语言所表述的 Web页面经过浏览器分析后只适合人们浏览 ,不适合作为一种数据交换的方式由机器处理 .该文以文档对象模型 DOM为基础 ,把所要提取的信息在 DOM层次结构中的路径作为信息抽取的“坐标”,并以这个基本原理为基础设计了一种归纳学习算法来半自动地生成提取规则 ,然后根据提取规则生成 Java类 .生成的 Ja-va类可以作为 Web数据源包装器组成的重要构件 .
【作者单位】中国科学院软件研究所 中国科学院软件研究所
【分类号】:TP311.52

【引证文献】
中国期刊全文数据库 前10条
1 张彦超;刘云;李勇;沈波;;基于自动生成模板的Web信息抽取技术[J];北京交通大学学报;2009年05期
2 廉捷;刘云;;网络舆情中的信息预处理与自动摘要算法[J];北京交通大学学报;2010年05期
3 王茹,宋瀚涛,陆玉昌;基于树自动机的网页数据抽取[J];北京理工大学学报;2004年09期
4 张敏;;基于确定性树自动机技术的信息抽取研究[J];才智;2011年36期
5 张敏;;信息抽取技术在网页中的应用[J];中国城市经济;2011年20期
6 马瑞民;钱浩;;基于时间频率加权DOM的Web信息抽取方法[J];长江大学学报(自然科学版);2011年01期
7 张磊;陈俊亮;孟祥武;沈筱彦;郭杰;;基于用户偏好的垂直搜索算法[J];电子科技大学学报;2010年01期
8 唐纬晟;苗放;刘斌;;XML实现文化数字数据无平台交换[J];电脑知识与技术(学术交流);2007年09期
9 李春艳;徐保民;;Web数据抽取技术研究初探[J];电脑知识与技术;2009年35期
10 李向阳,陆建江,张亚非;基于竞争分类的Web信息抽取[J];电子学报;2004年11期
中国重要会议论文全文数据库 前6条
1 翟伟斌;许榕生;;基于Internet的CIS研究[A];第十三届全国核电子学与核探测技术学术年会论文集(下册)[C];2006年
2 韩杰;廖闻剑;彭艳兵;;基于楼层分割的BBS信息提取[A];中国通信学会第六届学术年会论文集(上)[C];2009年
3 韩杰;廖闻剑;彭艳兵;;基于楼层分割的BBS信息提取[A];中国通信学会第六届学术年会论文集(中)[C];2009年
4 梁勇;张文;;网络舆情采集系统的设计[A];2011年全国通信安全学术会议论文集[C];2011年
5 王文生;谢能付;;基于Web的农业信息自动抽取方法研究[A];中国农业信息科技创新与学科发展大会论文汇编[C];2007年
6 吕国英;冯艳;李茹;;基于中文框架语义的信息抽取研究[A];第四届全国信息检索与内容安全学术会议论文集(上)[C];2008年
中国博士学位论文全文数据库 前10条
1 吴承荣;骨干通道上的网络论坛通信信息监测和分析的关键技术研究[D];复旦大学;2011年
2 黄九鸣;面向舆情分析和属性发现的网络文本挖掘技术研究[D];国防科学技术大学;2011年
3 张友华;面向智能服务的Web内容计算研究与应用[D];中国科学技术大学;2006年
4 张素香;信息抽取中关键技术的研究[D];北京邮电大学;2007年
5 胡国平;基于超大规模问答对库和语音界面的非受限领域自动问答系统研究[D];中国科学技术大学;2007年
6 周顺先;文本信息抽取模型及算法研究[D];湖南大学;2007年
7 董宝力;Web制造资源的语义发现关键技术研究[D];浙江大学;2007年
8 胡燕;基于Web信息抽取的专业知识获取方法研究[D];武汉理工大学;2007年
9 何慧;WEB文本挖掘中关键问题的研究[D];北京邮电大学;2009年
10 张磊;个性化推荐和搜索中若干关键问题的研究[D];北京邮电大学;2009年
中国硕士学位论文全文数据库 前10条
1 孙岭;一种基于前缀表达式的Web信息抽取方法的关键问题的实现[D];山东科技大学;2010年
2 雷斌;基于Java技术的智能化搜索引擎的研究与设计[D];哈尔滨工程大学;2010年
3 方少卿;Web就业信息抽取系统的实现研究[D];合肥工业大学;2010年
4 范春晓;基于XML的Web信息抽取技术研究[D];沈阳理工大学;2010年
5 杨鼎;基于朴素贝叶斯的中文文本情感倾向分类研究[D];湖南工业大学;2010年
6 谷文;基于概念树的Web信息抽取技术研究[D];长春工业大学;2010年
7 胡少荣;一种舆情信息预处理平台的研究与实现[D];北京交通大学;2010年
8 孙亚南;网站实时时序数据采集系统的设计与实现[D];西安电子科技大学;2010年
9 曾一平;中文文本情感分类的研究[D];北京交通大学;2011年
10 卢承山;基于领域的主题信息采集技术研究[D];武汉理工大学;2011年
【同被引文献】
中国期刊全文数据库 前10条
1 张焱;余海龙;罗进川;;超高速数据采集系统设计与实现[J];安徽大学学报(自然科学版);2006年04期
2 陶皖;采用C/S和B/S模型的医院管理信息系统[J];安徽机电学院学报;1999年04期
3 张峻峰;赵静娟;郑怀国;;面向农村的知识服务模式探讨[J];安徽农业科学;2008年22期
4 周文;曹琳;;时间序列在干旱区棉花需水量预测中的应用[J];安徽农业科学;2008年23期
5 吕效国;缪雪晴;;用折扣最小二乘法建立线性自回归模型预测粮食产量[J];安徽农业科学;2008年30期
6 彭玉容;杨捧;高媛;;农业搜索引擎的发展现状及关键技术研究[J];安徽农业科学;2010年20期
7 周宏宇;张政;;中文分词技术综述[J];安阳师范学院学报;2010年02期
8 谢新洲,包昌火,张燕;论企业竞争情报系统的建设[J];北京大学学报(哲学社会科学版);2001年06期
9 张魁麟,邵春福,王力劭;基于分布式并行算法的动态交通流分配研究[J];北方交通大学学报;2002年05期
10 武旭,须德;基于向量空间模型的文本自动分类系统的研究与实现[J];北方交通大学学报;2003年02期
中国重要会议论文全文数据库 前10条
1 白硕;程学旗;郭莉;王斌;余智华;刘群;;大规模内容计算[A];语言计算与基于内容的文本处理——全国第七届计算语言学联合学术会议论文集[C];2003年
2 廖先桃;于海滨;秦兵;刘挺;;HMM与自动规则提取相结合的中文命名实体识别[A];第二届全国学生计算语言学研讨会论文集[C];2004年
3 邹嘉彦;;评述新闻报道或文章色彩-正负两极性自动分类的研究[A];全国第八届计算语言学联合学术会议(JSCL-2005)论文集[C];2005年
4 王根;赵军;;中文褒贬义词语倾向性的分析[A];第三届学生计算语言学研讨会论文集[C];2006年
5 徐琳宏;林鸿飞;杨志豪;;基于语义理解的文本倾向性识别机制[A];第三届学生计算语言学研讨会论文集[C];2006年
6 余超;蔡东风;张桂平;;词汇语义相似度计算中相关技术的分析[A];第三届学生计算语言学研讨会论文集[C];2006年
7 徐小琴;章成志;;Web信息检索中相关词提示技术与评测[A];第三届学生计算语言学研讨会论文集[C];2006年
8 赵妍妍;王啸吟;秦兵;车万翔;刘挺;;中文事件抽取中事件类别的自动识别[A];第三届学生计算语言学研讨会论文集[C];2006年
9 蒲宇达;关毅;王强;;基于数据挖掘思想的网页正文抽取方法的研究[A];第三届学生计算语言学研讨会论文集[C];2006年
10 姚天昉;娄德成;;汉语语句主题语义倾向分析方法的研究[A];内容计算的研究与应用前沿——第九届全国计算语言学学术会议论文集[C];2007年
中国重要报纸全文数据库 前3条
1 汪蔚;[N];中国计算机报;2004年
2 王克宏;[N];计算机世界;2003年
3 石华;[N];中国商报;2001年
中国博士学位论文全文数据库 前10条
1 张智雄;Internet科技信息资源门户网站(STIP)系统的实践研究[D];中国科学院文献情报中心;2000年
2 简(王争)峰;基于XML的异构产品信息网上交换、检索技术研究与应用[D];浙江大学;2002年
3 姚绍文;语义化Web的关键技术及其应用研究[D];电子科技大学;2002年
4 聂培尧;基于XML的半结构数据管理及数据集成问题研究[D];西北工业大学;2002年
5 陈定权;自动主题搜索的应用研究[D];中国科学院研究生院(文献情报中心);2003年
6 董颖;知识服务机制研究[D];中国科学院研究生院(软件研究所);2003年
7 陈治平;智能搜索引擎理论与应用研究[D];湖南大学;2003年
8 陈莉;KDD中的几个关键问题研究[D];西安电子科技大学;2003年
9 陈勇强;基于现代信息技术的超大型工程建设项目集成管理研究[D];天津大学;2004年
10 杨立;基于领域知识的知识发现研究[D];中国科学院研究生院(软件研究所);2005年
中国硕士学位论文全文数据库 前10条
1 郑宏;数据挖掘可视化技术的研究与实现[D];西安电子科技大学;2010年
2 张博;高校网络突发事件应急处置系统的研究[D];北京交通大学;2011年
3 邱伟林;面向领域的垂直搜索引擎的研究与实现[D];大连海事大学;2011年
4 宋庆;基于领域本体的智能检索技术应用研究[D];中国农业科学院;2011年
5 董宁威;基于XML的WEB数据库信息发布系统的研究与设计[D];苏州大学;2001年
6 翟蕾;Web文档分类及信息抽取的研究与开发[D];西北工业大学;2001年
7 彭莉娟;嵌入式浏览器的研究[D];北京工业大学;2001年
8 林勇;基于元数据的城市空间数据互操作技术研究[D];重庆大学;2001年
9 王江建;基于WEB的分布式对象中间件框架模型的研究[D];福州大学;2002年
10 薛建江;基于CORBA的分布式对象技术及其与Web的集成应用[D];南京航空航天大学;2002年
【二级引证文献】
中国期刊全文数据库 前10条
1 赵靖;王侨文;管马周;单传佳;;自动提取布局结构相似网页的结构化信息[J];安徽科技学院学报;2010年06期
2 宋健豪;赵刚;;基于启发式规则优化的网页元素提取方法[J];信息安全与技术;2012年06期
3 张彦超;刘云;李勇;沈波;;基于自动生成模板的Web信息抽取技术[J];北京交通大学学报;2009年05期
4 廉捷;刘云;;网络舆情中的信息预处理与自动摘要算法[J];北京交通大学学报;2010年05期
5 李伟;黄颖;;基于HtmlParser的网页信息提取[J];兵工自动化;2007年07期
6 翟东升;杨洋;;基于XML技术的USPTO专利抽取系统[J];北京工业大学学报;2011年04期
7 蔡华利;刘鲁;王理;;突发事件Web新闻多层次自动分类方法[J];北京工业大学学报;2011年06期
8 冯少卿;都云程;;网页结构模板生成新方法研究[J];北京机械工业学院学报;2007年03期
9 胡军伟;秦奕青;张伟;;正则表达式在Web信息抽取中的应用[J];北京信息科技大学学报(自然科学版);2011年06期
10 王芳;丁涛;任工昌;;面向食品机械产品生命周期的网络化制造的研究[J];包装与食品机械;2008年05期
中国重要会议论文全文数据库 前10条
1 唐超;刘辰;杨正球;;使用多层迭代分析和分类网页文档的方法[A];2007北京地区高校研究生学术交流会通信与信息技术会议论文集(上册)[C];2008年
2 张二梅;刘辰;杨正球;;基于HTMLParser自动生成测试用例的研究[A];2007北京地区高校研究生学术交流会通信与信息技术会议论文集(上册)[C];2008年
3 徐云风;蒋文蓉;;Web页面信息抽取的分析与研究[A];IT服务促进企业信息化——第十一届中国Java技术及应用交流大会文集[C];2008年
4 李连霞;马军;陈竹敏;;基于多特征的网页内容提取研究[A];第三届和谐人机环境联合学术会议(HHME2007)论文集[C];2007年
5 王春元;张韬;;一种获取网页主要中文信息的方法[A];全国计算机安全学术交流会论文集(第二十四卷)[C];2009年
6 王文生;谢能付;;基于Web的农业信息自动抽取方法研究[A];中国农业信息科技创新与学科发展大会论文汇编[C];2007年
7 彭怡;寇纲;;基于领域知识的数据挖掘理论框架研究[A];第三届(2008)中国管理学年会论文集[C];2008年
8 时达明;林鸿飞;杨志豪;;基于网页框架和规则的网页噪音去除方法[A];第三届学生计算语言学研讨会论文集[C];2006年
9 蒲宇达;关毅;王强;;基于数据挖掘思想的网页正文抽取方法的研究[A];第三届学生计算语言学研讨会论文集[C];2006年
10 戴玉刚;;藏文网页采集技术研究[A];民族语言文字信息技术研究——第十一届全国民族语言文字信息学术研讨会论文集[C];2007年
中国博士学位论文全文数据库 前10条
1 戴小鹏;知识网格及其在农业生物灾害预警中关键技术研究[D];湖南农业大学;2010年
2 孙静宇;基于CBR的协同Web搜索研究[D];太原理工大学;2010年
3 汤华茂;基于语义的产业链网络化协同设计模式及关键技术研究[D];重庆大学;2010年
4 尹胜;网络化协作加工资源优化配置方法及其加工支持系统研究[D];重庆大学;2011年
5 郭延祥;并行组合数学模型方式研究及初步应用[D];清华大学;2010年
6 朱锁玲;命名实体识别在方志内容挖掘中的应用研究[D];南京农业大学;2011年
7 吴春明;Deep Web数据集成关键技术及其在农业领域的应用[D];西南大学;2011年
8 寇月;Deep Web实体搜索的关键技术研究[D];东北大学;2009年
9 彭涛;面向专业搜索引擎的主题爬行技术研究[D];吉林大学;2007年
10 董一鸿;动态数据库增量式挖掘算法及其应用的研究[D];浙江大学;2007年
中国硕士学位论文全文数据库 前10条
1 陈晓慧;空间信息服务管理平台的设计与实现[D];山东科技大学;2010年
2 孙岭;一种基于前缀表达式的Web信息抽取方法的关键问题的实现[D];山东科技大学;2010年
3 白冰;基于数据处理中心的企业竞争情报系统研究[D];山东科技大学;2010年
4 雷斌;基于Java技术的智能化搜索引擎的研究与设计[D];哈尔滨工程大学;2010年
5 杜娟;基于语义网格的知识地图资源组织研究与应用[D];哈尔滨工程大学;2010年
6 王乐超;Web环境下文献信息的提取与匹配研究[D];大连理工大学;2010年
7 龚健;数据挖掘技术在农业信息服务中的应用研究[D];安徽农业大学;2010年
8 赵晓丽;基于语义分析的网页病毒检测研究[D];中国海洋大学;2010年
9 潘正高;基于内容的Web新闻文本自动分类问题研究[D];合肥工业大学;2010年
10 饶辉科;基于缓存预取在线考试系统的分析与实现[D];华东师范大学;2010年
【相似文献】
中国期刊全文数据库 前10条
1 胡少伟;;XML路径表达式的查询优化技术[J];科学之友(B版);2009年08期
2 李熙;徐德智;;基于模式的XML查询重写研究[J];中国科技信息;2009年12期
3 车五一;;基于Xpath的XML安全访问控制方法[J];辽宁石油化工大学学报;2007年02期
4 姚全珠;丁晓剑;;处理XML文档查询的高效结构连接方法[J];计算机工程;2006年18期
5 范新灿;杨丽娟;;基于路径表达式的XML查询优化模型研究与设计[J];情报杂志;2008年11期
6 曹建英;;基于路径表达式的XML查询优化方法[J];陇东学院学报(自然科学版);2005年02期
7 沈剑沧;鲍培明;;XML在图书查询系统中的实现技术[J];现代图书情报技术;2006年10期
8 沈剑沧;鲍培明;;XML查询方法的设计与研究[J];计算机工程;2007年21期
9 范新灿;;XML查询优化模型XQO的研究设计[J];计算机工程与应用;2009年19期
10 郝森;朱战立;;对XML文档结构树形表示的研究与实现[J];现代电子技术;2007年18期
中国重要会议论文全文数据库 前10条
1 吕建华;王国仁;于戈;;XML数据的存储、索引和查询优化技术及其性能评价[A];第十九届全国数据库学术会议论文集(研究报告篇)[C];2002年
2 王静;孟小峰;王珊;;以目标节点为导向的XML路径查询处理[A];第二十届全国数据库学术会议论文集(研究报告篇)[C];2003年
3 傅珊珊;雷庆;吴扬扬;;从XML到关系数据模型的映射[A];第二十三届中国数据库学术会议论文集(技术报告篇)[C];2006年
4 张昱;吴年;;XML数据流的过滤与查询技术[A];第二十一届中国数据库学术会议论文集(技术报告篇)[C];2004年
5 梁宇奇;周傲英;郑仕辉;季文;张龙;;用关系数据库存储XML数据的索引技术[A];第十八届全国数据库学术会议论文集(技术报告篇)[C];2001年
6 祝建军;黄冬梅;;XML文档更新时键约束保持的研究与实现[A];第二十一届中国数据库学术会议论文集(技术报告篇)[C];2004年
7 王静;孟小峰;王珊;;SUPEX:一种基于模式的XML路径索引[A];第十九届全国数据库学术会议论文集(研究报告篇)[C];2002年
8 岳昆;郭志懋;胥正川;周傲英;;从XML键到关系数据库函数依赖[A];第十九届全国数据库学术会议论文集(技术报告篇)[C];2002年
9 ;基于DTD的XML路径表达式查询优化(英文)[A];第二十一届中国数据库学术会议论文集(技术报告篇)[C];2004年
10 吕建华;周巍;孙冰;王国仁;于戈;;XML查询中RPE索引技术研究[A];第十八届全国数据库学术会议论文集(研究报告篇)[C];2001年
中国重要报纸全文数据库 前10条
1 秦林;《XML完全探索》[N];中华读书报;2001年
2 本报记者 李瀛寰;XML推了网络一把[N];中国计算机报;2000年
3 ;分化并不能阻止XML发展[N];中国计算机报;2000年
4 ;为XML标准定标准[N];中国计算机报;2001年
5 IDG电讯;Microsoft、IBM共同制定XML标准[N];计算机世界;2000年
6 北京邮电大学 张剑;XML与HTML的结合(上)[N];计算机世界;2001年
7 本报记者 陆 杰;XML丛林的新秀[N];中华读书报;2002年
8 北京邮电大学 张剑;XML技术预览[N];计算机世界;2001年
9 北京邮电大学 张剑;XML与HTML的结合(下)[N];计算机世界;2001年
10 侯青;国际电子商务XML/EDI特点及现状[N];国际商报;2001年
中国博士学位论文全文数据库 前10条
1 沈洁;基于自动机的XML数据过滤研究[D];哈尔滨工程大学;2010年
2 叶晓峰;基于XML的冲压模具设计知识重用技术研究[D];华中科技大学;2010年
3 殷丽凤;不完全信息环境下XML数据库规范化问题的研究[D];哈尔滨理工大学;2009年
4 张晨静;XML关键字过滤技术[D];复旦大学;2011年
5 宁博;XML查询模式匹配及文档过滤技术研究[D];东北大学;2009年
6 汪源;XML事务模型及并发控制研究[D];浙江大学;2006年
7 路燕;基于多DTD的XML查询技术研究[D];复旦大学;2003年
8 许建军;对结构化和半结构化数据的关键字搜索研究[D];复旦大学;2007年
9 刘喜平;XML文档搜索中的查询处理技术研究[D];江西财经大学;2010年
10 李荷华;面向智能体的化工过程运行系统信息集成模型研究[D];华南理工大学;2003年
中国硕士学位论文全文数据库 前10条
1 沈剑沧;XML查询方法研究[D];华东师范大学;2006年
2 段洪秀;一种基于关系数据库的XML文档存储和查询的方法[D];山西大学;2006年
3 陈波;XML文档数据查询技术研究[D];山东大学;2005年
4 文华南;支持数据更新的XML压缩编码研究[D];湖南师范大学;2010年
5 赵九震;XML数据查询的关键技术研究[D];山东大学;2010年
6 刘玲;一种通用Web信息抽取系统的研究与实现[D];西南石油大学;2007年
7 白林;基于路径表达式的XML索引查询技术[D];郑州大学;2010年
8 魏长芳;基于二次索引技术的XML查询研究[D];中国石油大学;2010年
9 朱杰;基于主题和结构的XML网页的数据抽取[D];华侨大学;2005年
10 刘靖超;面向数据采集的信息集成系统设计与实现[D];河北工业大学;2005年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62791813
  • 010-62985026