收藏本站
《计算机学报》 2004年03期
收藏 | 投稿 | 手机打开
二维码
手机客户端打开本文

基于Ontology的Web内容二阶段半自动提取方法

高军  王腾蛟  杨冬青  唐世渭  
【摘要】:目前Web中的海量信息已经成为人们重要的信息来源 ,如何从大量半结构化或无结构的HTML网页中提取信息已成为目前的研究热点 .但是Web页面的初始设计目的是为了方便用户浏览 ,而不是便于应用程序自动处理 ,如何实现一个精确的、应用广泛的提取系统面临很多困难 .传统的方法可以粗略划分为基于交互产生的包装程序和自动生成的包装程序 ,但是基于交互产生的包装程序不具备普遍的应用性 ,基于自动生成的包装程序准确性不高 .该文提出了一种新的二阶段基于语义的半自动提取方法 ,在保证提取准确性的前提下 ,尽可能减少交互操作 ,同时随着参与网站的增加 ,逐步提高包装程序生成的自动化 .相对于目前的方法 ,该文方法同时考虑了包装程序提取结果的准确性和提取过程的应用普遍性 .其有效性在原型系统中得到验证 .应用该方法 ,已经成功提取了12 0万HTML页面 .

【引证文献】
中国期刊全文数据库 前10条
1 李畅;王永良;冯晓洁;聂峰;;作战文书关键信息抽取方法[J];兵工自动化;2011年05期
2 于红;刘溪婧;;基于知识库的渔业领域本体学习算法[J];大连海洋大学学报;2011年02期
3 黎军;;最简多元最小上界算法研究[J];电脑知识与技术;2009年18期
4 李石君;于俊清;欧伟杰;;基于HTML模式代数的Web信息提取方法[J];计算机研究与发展;2006年09期
5 张瑞;李石君;;网上表格数据到XML的自动转换[J];计算机工程与应用;2007年02期
6 任仲晟;薛永生;;基于页面标签的Web结构化数据抽取[J];计算机科学;2007年10期
7 刘辉;陈静玉;徐学洲;;基于模板流程配置的Web信息抽取[J];计算机工程;2008年20期
8 黄玲;陈龙;;基于网页分块的正文信息提取方法[J];计算机应用;2008年S2期
9 孙承杰,关毅;基于统计的网页正文信息抽取方法的研究[J];中文信息学报;2004年05期
10 胡国平;张巍;王仁华;;基于双层决策的新闻网页正文精确抽取[J];中文信息学报;2006年06期
中国重要会议论文全文数据库 前2条
1 李纪华;夏薇;;基于XML的web信息提取方法研究[A];全国高校社科信息资料研究会第六次会员代表大会暨第13次学术研讨会论文集[C];2010年
2 蒲宇达;关毅;王强;;基于数据挖掘思想的网页正文抽取方法的研究[A];第三届学生计算语言学研讨会论文集[C];2006年
中国博士学位论文全文数据库 前4条
1 罗芳;意见挖掘中若干关键问题研究[D];武汉理工大学;2011年
2 黄茂军;地理本体的形式化表达机制及其在地图服务中的应用研究[D];武汉大学;2005年
3 何丽;基于Web挖掘的决策支持系统模型研究[D];天津大学;2005年
4 傅魁;基于Web的本体学习研究[D];武汉理工大学;2007年
中国硕士学位论文全文数据库 前10条
1 杨小林;语义Web及其在搜索引擎上的应用[D];湖南师范大学;2011年
2 黎邓根;基于Agent和Ontology的网络安全风险评估的研究[D];华北电力大学;2011年
3 彭辛庚;电信企业数据仓库经营分析系统的设计与实现[D];湖南大学;2009年
4 王胡均;基于本体的知识管理系统的设计与实现[D];重庆大学;2011年
5 吴小雷;基于Ontology的内容分析法的研究[D];南京理工大学;2005年
6 沈建良;基于本体论的个性化信息搜索系统研究[D];哈尔滨工程大学;2005年
7 吴爱珍;HTML表格数据抽取与集成[D];武汉大学;2004年
8 金均强;基于本体的空间数据建模[D];武汉大学;2005年
9 苟全登;基于XML的半结构化Web信息提取的研究[D];电子科技大学;2006年
10 蒲宇达;基于web的网页链接与正文抽取技术研究[D];哈尔滨工业大学;2006年
【共引文献】
中国期刊全文数据库 前10条
1 刘椿年,宋霞;基于Boosting的半结构化信息抽取[J];北京工业大学学报;2005年02期
2 何章鸿;董守斌;;基于XPath的广告数据提取研究[J];江西师范大学学报(自然科学版);2008年02期
3 何友全;徐澄;徐小乐;唐华姣;;一种基于统计学特征和DOM树的网页去噪技术[J];重庆理工大学学报(自然科学版);2011年01期
4 李绍英;;基于代理技术的比较购物研究[J];当代经理人;2006年10期
5 孙铁利;教巍巍;刘淑华;;Web-Based Information Extraction Technology[J];Journal of Donghua University(English Edition);2007年02期
6 贺令亚;柳佳刚;;基于Web的包装器技术的现状与发展[J];电脑开发与应用;2007年06期
7 刘军;;基于支持向量机的网页主题信息提取算法[J];电脑知识与技术(学术交流);2007年02期
8 李向阳,陆建江,张亚非;基于竞争分类的Web信息抽取[J];电子学报;2004年11期
9 柳佳刚;刘高嵩;贺令亚;陈山;;基于Web的信息抽取技术现状与发展[J];福建电脑;2007年07期
10 魏晶晶;于然;廖祥文;;基于分隔符的中文论坛信息抽取[J];福建电脑;2011年06期
中国重要会议论文全文数据库 前10条
1 陈红兵;;基于XML的电子政务信息集成框架[A];2005年“数字安徽”博士科技论坛论文集[C];2005年
2 李纪华;夏薇;;基于XML的web信息提取方法研究[A];全国高校社科信息资料研究会第六次会员代表大会暨第13次学术研讨会论文集[C];2010年
3 刘秉权;王喻红;葛冬梅;李佳;;基于结构树解析的网页正文抽取方法[A];黑龙江省计算机学会2007年学术交流年会论文集[C];2007年
4 ;A Classification Method for Web Information Extraction[A];Proceedings of the First Conference on Web Information System and Applications[C];2004年
5 汪建伟;高军;王腾蛟;杨冬青;;一种基于显示属性的网页信息提取方法[A];全国网络与信息安全技术研讨会论文集(上册)[C];2007年
6 叶娜;吴雪军;朱靖波;陈文亮;;基于相似计算的信息抽取模板自动获取方法[A];第二届全国学生计算语言学研讨会论文集[C];2004年
7 叶娜;罗海涛;朱靖波;张斌;;基于归纳逻辑编程的多槽信息抽取规则自动学习方法[A];全国第八届计算语言学联合学术会议(JSCL-2005)论文集[C];2005年
8 钟涛;陈群秀;;基于层式有限状态自动机的灾难事件抽取系统[A];第三届全国信息检索与内容安全学术会议论文集[C];2007年
9 左南;李涓子;唐杰;;基于SVM的肖像照片抽取[A];第三届全国信息检索与内容安全学术会议论文集[C];2007年
10 丁晟春;刘逶迤;熊霞;梅健;;基于领域本体和语块分析的信息抽取的研究与实现[A];第四届全国信息检索与内容安全学术会议论文集(上)[C];2008年
中国博士学位论文全文数据库 前10条
1 邓斌;B2C在线评论中的客户知识管理研究[D];电子科技大学;2010年
2 陈珂锐;基于本体演化的Deep Web数据抽取与注释[D];吉林大学;2011年
3 龙华;定义问答检索关键技术研究[D];重庆大学;2010年
4 李莎莎;面向搜索引擎的自然语言处理关键技术研究[D];国防科学技术大学;2011年
5 刘亚清;开放式环境中的本体演化及其在信息抽取的应用研究[D];大连海事大学;2011年
6 寇月;Deep Web实体搜索的关键技术研究[D];东北大学;2009年
7 俞方桦;互联网信息资源整合研究[D];东华大学;2001年
8 陈治平;智能搜索引擎理论与应用研究[D];湖南大学;2003年
9 郑桂华;基于网络的语文校本课程研究与实践[D];华东师范大学;2004年
10 邓绪斌;面向复杂数据源的数据抽取模型和算法研究[D];复旦大学;2005年
中国硕士学位论文全文数据库 前10条
1 樊敬川;Deep Web数据库的选择研究[D];河北大学;2009年
2 孙岭;一种基于前缀表达式的Web信息抽取方法的关键问题的实现[D];山东科技大学;2010年
3 雷斌;基于Java技术的智能化搜索引擎的研究与设计[D];哈尔滨工程大学;2010年
4 王培正;基于Deep Web的网络信息抽取技术研究[D];华南理工大学;2010年
5 谷文;基于概念树的Web信息抽取技术研究[D];长春工业大学;2010年
6 王葛;Deep Web接口集成与数据标注方法研究[D];长春工业大学;2010年
7 黄亮;知识产权预警机制在服务外包平台中的应用研究[D];南昌大学;2010年
8 赛子龙;日志分析数据同步机制在区域微软技术中心营运平台中的应用研究[D];南昌大学;2010年
9 胡少荣;一种舆情信息预处理平台的研究与实现[D];北京交通大学;2010年
10 杨奕锦;Web页面用户评论信息抽取技术研究[D];浙江大学;2011年
【同被引文献】
中国期刊全文数据库 前10条
1 李伟;黄颖;;基于HtmlParser的网页信息提取[J];兵工自动化;2007年07期
2 邓志鸿,唐世渭,张铭,杨冬青,陈捷;Ontology研究综述[J];北京大学学报(自然科学版);2002年05期
3 曹元大,贺海军,涂哲明;中文Web文档全文检索系统的设计及实现[J];北京理工大学学报;2002年01期
4 廖乐健,幺敬国,曹元大,李守丽;一个语义Web系统的设计与实现[J];北京理工大学学报;2004年02期
5 王茹,宋瀚涛,陆玉昌;基于树自动机的网页数据抽取[J];北京理工大学学报;2004年09期
6 廖乐健,幺敬国,李守丽;基于语义Web的旅游信息系统设计[J];北京理工大学学报;2004年11期
7 段云峰,宋俊德,李剑威,舒华英;基于数量的关联规则挖掘[J];北京邮电大学学报;2002年04期
8 贺来;“本体论”究竟是什么——评《本体论研究》[J];长白学刊;2001年05期
9 张大志,刘磊;一种本体的形式描述方法及其应用[J];吉林大学学报(信息科学版);2004年01期
10 白同强,刘磊;语义Web的研究与展望[J];吉林大学学报(信息科学版);2004年02期
中国重要会议论文全文数据库 前3条
1 蒲宇达;关毅;王强;;基于数据挖掘思想的网页正文抽取方法的研究[A];第三届学生计算语言学研讨会论文集[C];2006年
2 苏祺;孙斌;;面向观点挖掘的产品评价特征词识别[A];第三届全国信息检索与内容安全学术会议论文集[C];2007年
3 宋国杰;王腾蛟;唐世渭;杨冬青;;数据流中频繁模式的评估与维护[A];第二十届全国数据库学术会议论文集(研究报告篇)[C];2003年
中国重要报纸全文数据库 前1条
1 中国科学院计算技术研究所 常亮史忠植;[N];计算机世界;2007年
中国博士学位论文全文数据库 前10条
1 姚绍文;语义化Web的关键技术及其应用研究[D];电子科技大学;2002年
2 刘业政;基于粗糙集数据分析的智能决策支持系统研究[D];合肥工业大学;2002年
3 陈定权;自动主题搜索的应用研究[D];中国科学院研究生院(文献情报中心);2003年
4 徐振宁;基于本体的Web数据语义信息的表示与处理方法研究[D];中国人民解放军国防科学技术大学;2002年
5 任明;分布式城市空间信息系统的关键技术研究与实现[D];华东师范大学;2003年
6 李景;本体理论及在农业文献检索系统中的应用研究——以花卉学本体建模为例[D];中国科学院研究生院(文献情报中心);2004年
7 常春;Ontology在农业信息管理中的构建和转化[D];中国农业科学院;2004年
8 崔巍;用本体实现地理信息系统语义集成和互操作[D];武汉大学;2004年
9 李荣陆;文本分类及其相关技术研究[D];复旦大学;2005年
10 丁虹;空间相似性理论与计算模型的研究[D];武汉大学;2004年
中国硕士学位论文全文数据库 前10条
1 朱毅华;智能搜索引擎中的同义词识别算法研究[D];南京农业大学;2001年
2 胡玉杰;制造业知识管理中基于本体的产品知识表达研究[D];浙江大学;2003年
3 尹奇韡;基于语义Web的信息表达与语义化过程研究[D];浙江大学;2003年
4 张德海;NKI国家和地区地理知识的获取与分析[D];云南师范大学;2002年
5 张宇翔;NKI本体理论中一些基本关系的研究[D];云南师范大学;2002年
6 杨文柱;基于领域知识和信息抽取的个性化Web查询系统[D];河北大学;2002年
7 陈少飞;Web信息抽取规则的优化及规则的XQuery表达[D];河北大学;2003年
8 邓丽;面向主题的XML网页的模式和数据抽取[D];华侨大学;2004年
9 狄慧;基于Agent的Web信息抽取研究[D];大连理工大学;2004年
10 路菲;内容分析与文献计量的比较与综合研究[D];南京理工大学;2004年
【二级引证文献】
中国期刊全文数据库 前10条
1 胡凌云;胡桂兰;徐勇;李龙澍;;基于Web的新闻文本分类技术的研究[J];安徽大学学报(自然科学版);2010年06期
2 赵靖;王侨文;管马周;单传佳;;自动提取布局结构相似网页的结构化信息[J];安徽科技学院学报;2010年06期
3 高博;朱东华;韩士雄;;一种智能化的信息采集系统的研究与实现[J];兵工学报;2009年S1期
4 冯少卿;都云程;;网页结构模板生成新方法研究[J];北京机械工业学院学报;2007年03期
5 李大鹏;刘海军;刘伟;;基于WEB的包装机械管理系统的设计与开发[J];包装工程;2009年03期
6 刘海军;孙井坤;郑先哲;;螺旋输送机参数设计系统的开发[J];包装工程;2012年11期
7 林昌平;郑皎凌;;基于DOM规范的网页分析技术研究[J];成都信息工程学院学报;2007年S1期
8 王艳东;龚健雅;戴晶晶;;基于本体的空间数据语义查询研究[J];测绘信息与工程;2007年02期
9 陈玉鑫;李景文;崔爽;姜智东;;基于地理本体的空间数据组织方法与应用[J];测绘与空间地理信息;2011年06期
10 王艳妮;刘刚;;地质灾害领域本体的研究与应用[J];地理与地理信息科学;2011年06期
中国重要会议论文全文数据库 前6条
1 胡飞;;一种Web页面的主题区域搜索方法[A];2008年计算机应用技术交流会论文集[C];2008年
2 张文东;袁春风;武港山;;基于视觉的网页数据抽取[A];2009年研究生学术交流会通信与信息技术论文集[C];2009年
3 王春元;张韬;;一种获取网页主要中文信息的方法[A];全国计算机安全学术交流会论文集(第二十四卷)[C];2009年
4 时达明;林鸿飞;杨志豪;;基于网页框架和规则的网页噪音去除方法[A];第三届学生计算语言学研讨会论文集[C];2006年
5 蒲宇达;关毅;王强;;基于数据挖掘思想的网页正文抽取方法的研究[A];第三届学生计算语言学研讨会论文集[C];2006年
6 冯少卿;都云程;施水才;;基于模板的网页主题信息抽取[A];第三届全国信息检索与内容安全学术会议论文集[C];2007年
中国博士学位论文全文数据库 前10条
1 刘伟;基于地理本体的空间数据服务发现与集成[D];中国矿业大学;2010年
2 李淑霞;地名本体及其在地理空间数据组织中的应用研究[D];解放军信息工程大学;2009年
3 赵忠君;土地法律本体构建及其推理机制研究[D];武汉大学;2011年
4 李勤超;基于本体的地理信息语义转换模型与方法研究[D];解放军信息工程大学;2011年
5 陈楚湘;中医诊疗标准建立及应用的智能方法研究[D];解放军信息工程大学;2011年
6 杨骏;“数字城市”中的空间本体数据库研究[D];西南交通大学;2007年
7 董一鸿;动态数据库增量式挖掘算法及其应用的研究[D];浙江大学;2007年
8 王曰芬;文献计量法与内容分析法的综合研究[D];南京理工大学;2007年
9 华斌;知识管理在科技项目立项评价中的应用研究[D];天津财经大学;2008年
10 柴胜;空间资源中信息语义注册与检索相关技术研究[D];吉林大学;2008年
中国硕士学位论文全文数据库 前10条
1 罗义兵;领域文本相似度计算方法研究[D];山东科技大学;2010年
2 王乐超;Web环境下文献信息的提取与匹配研究[D];大连理工大学;2010年
3 孟桂国;基于维基百科的双语语料挖掘技术研究[D];苏州大学;2010年
4 方少卿;Web就业信息抽取系统的实现研究[D];合肥工业大学;2010年
5 范春晓;基于XML的Web信息抽取技术研究[D];沈阳理工大学;2010年
6 孟祥燕;问答对自动获取的研究[D];昆明理工大学;2008年
7 李文娟;基于OWL的地名本体构建与检索机制研究[D];解放军信息工程大学;2010年
8 李晓轩;面向制图综合的道路信息表达研究与实践[D];解放军信息工程大学;2010年
9 梁汝鹏;面向地名本体服务的空间信息检索研究[D];解放军信息工程大学;2010年
10 吕楠;话题追踪与演化分析技术研究[D];解放军信息工程大学;2009年
【相似文献】
中国期刊全文数据库 前10条
1 张明,王煜,杨敬伟,袁方,赵红,石强;基于Ontology的智能信息检索研究[J];河北大学学报(自然科学版);2005年05期
2 袁文勤;王直杰;张珏;苏翔;;基于Ontology的网络知识管理系统的构建[J];计算机应用;2005年S1期
3 李雁飞;;语义Web技术对远程教育发展的影响[J];现代远程教育研究;2006年04期
4 邓志鸿,唐世渭,张铭,杨冬青,陈捷;Ontology研究综述[J];北京大学学报(自然科学版);2002年05期
5 杜文华;基于共识的分层信息模型[J];情报杂志;2003年12期
6 窦玉萌;王孟龙;;面向语义Web的搜索引擎构想[J];情报探索;2006年07期
7 高玉兰;姚世军;江澜;;基于ontology的分布式异构数据库集成研究[J];计算机工程与设计;2008年19期
8 张成洪,王向安,古晓洪;利用Ontology和规则表达式的Web信息抽取[J];计算机工程;2004年05期
9 东野广升;冯丽雅;;语义Web与Ontology研究[J];图书馆学研究;2006年05期
10 熊瑞英;;语义Web的核心技术[J];硅谷;2010年09期
中国重要会议论文全文数据库 前10条
1 王桐;刘大昕;田迪;孙伟;张万松;;一种改进的XML向量空间模型及其近似匹配算法[A];第二十三届中国数据库学术会议论文集(研究报告篇)[C];2006年
2 郭志懋;周傲英;;XML数据的在线过滤[A];第十九届全国数据库学术会议论文集(研究报告篇)[C];2002年
3 何震瀛;李建中;王宏志;;XML数据的关系存储[A];第十九届全国数据库学术会议论文集(研究报告篇)[C];2002年
4 丁峰;王煜;姚延涛;沈钧毅;;从XML模式到数据库模式[A];第十八届全国数据库学术会议论文集(技术报告篇)[C];2001年
5 谈子敬;施伯乐;;XML导出数据库表的实现与应用[A];第十八届全国数据库学术会议论文集(研究报告篇)[C];2001年
6 罗道峰;孟小峰;;一种面向XML文档的基于角色的扩展访问控制方法[A];第十八届全国数据库学术会议论文集(研究报告篇)[C];2001年
7 郑骏;王焱;钱卫宁;周傲英;;XML相似相关结构库的构造及其应用[A];第十九届全国数据库学术会议论文集(技术报告篇)[C];2002年
8 吴刚;于亚新;王国仁;于戈;;并行XML文档数据分片技术研究[A];第十九届全国数据库学术会议论文集(技术报告篇)[C];2002年
9 王静;孟小峰;王珊;;以目标节点为导向的XML路径查询处理[A];第二十届全国数据库学术会议论文集(研究报告篇)[C];2003年
10 王鹏飞;洪晓光;;基于XML大文档的动态索引[A];第二十一届中国数据库学术会议论文集(技术报告篇)[C];2004年
中国重要报纸全文数据库 前10条
1 清华大学 陈丹 谢晓芹 蔡月茹;让知识可以共享和重用[N];计算机世界;2002年
2 秦林;《XML完全探索》[N];中华读书报;2001年
3 本报记者 李瀛寰;XML推了网络一把[N];中国计算机报;2000年
4 ;分化并不能阻止XML发展[N];中国计算机报;2000年
5 ;为XML标准定标准[N];中国计算机报;2001年
6 IDG电讯;Microsoft、IBM共同制定XML标准[N];计算机世界;2000年
7 北京邮电大学 张剑;XML与HTML的结合(上)[N];计算机世界;2001年
8 本报记者 陆 杰;XML丛林的新秀[N];中华读书报;2002年
9 北京邮电大学 张剑;XML技术预览[N];计算机世界;2001年
10 北京邮电大学 张剑;XML与HTML的结合(下)[N];计算机世界;2001年
中国博士学位论文全文数据库 前10条
1 王晓东;基于Ontology知识库系统建模与应用研究[D];华东师范大学;2003年
2 常春;Ontology在农业信息管理中的构建和转化[D];中国农业科学院;2004年
3 姚绍文;语义化Web的关键技术及其应用研究[D];电子科技大学;2002年
4 邱灿华;基于Ontology面向代理的供应链仿真建模方法研究[D];同济大学;2005年
5 沈洁;基于自动机的XML数据过滤研究[D];哈尔滨工程大学;2010年
6 叶晓峰;基于XML的冲压模具设计知识重用技术研究[D];华中科技大学;2010年
7 殷丽凤;不完全信息环境下XML数据库规范化问题的研究[D];哈尔滨理工大学;2009年
8 张晨静;XML关键字过滤技术[D];复旦大学;2011年
9 宁博;XML查询模式匹配及文档过滤技术研究[D];东北大学;2009年
10 梁晟;基于语义Web的服务自动组合技术的研究[D];中国科学院研究生院(软件研究所);2004年
中国硕士学位论文全文数据库 前10条
1 朱杰;基于主题和结构的XML网页的数据抽取[D];华侨大学;2005年
2 刘靖超;面向数据采集的信息集成系统设计与实现[D];河北工业大学;2005年
3 王旭磊;基于CBR的电子商务网站智能设计系统的研究[D];青岛大学;2005年
4 李志明;基于Web服务的在线考试系统应用研究与实现[D];广东工业大学;2005年
5 江静;基于XML的公文管理系统设计与应用研究[D];南京理工大学;2005年
6 陈美云;基于XML的柔性信息集成技术研究[D];山东科技大学;2005年
7 朱瑜;工作流引擎研究与实现[D];电子科技大学;2005年
8 谢红;XML技术和B/S模式在职业教育与培训管理信息系统中的应用研究[D];重庆大学;2005年
9 郦金花;基于XML的MARC发布系统的设计与实现[D];苏州大学;2005年
10 沈剑沧;XML查询方法研究[D];华东师范大学;2006年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62791813
  • 010-62985026