收藏本站
《河北农业大学学报》 2005年03期
收藏 | 投稿 | 手机打开
二维码
手机客户端打开本文

基于DOM的Web信息抽取

崔继馨  张鹏  杨文柱  
【摘要】:为解决因Web信息量巨大且具有动态性、不规则性,Web信息查询和Web信息集成存在很大困难,研究了对HTML格式的Web文档的信息抽取,提出了一种基于DOM的Web信息抽取方法。该方法通过附加语义、样本学习生成基于DOM路径的抽取规则,利用遍历DOM树实现信息抽取。本方法可用于Web查询,也可用于信息集成系统中包装器的构造。
【作者单位】河北工程学院 河北工程学院 河北大学数学与计算机学院
【分类号】:TP393

【引证文献】
中国期刊全文数据库 前10条
1 胡军伟;秦奕青;张伟;;正则表达式在Web信息抽取中的应用[J];北京信息科技大学学报(自然科学版);2011年06期
2 赵欣欣;索红光;刘玉树;;基于标记窗的网页正文信息提取方法[J];计算机应用研究;2007年03期
3 王平根;;基于DOM的动态网页信息抽取方法[J];科技信息;2010年31期
4 李明;李秀兰;;基于结果模式的Deep Web数据标注方法[J];计算机应用;2011年07期
5 化柏林;张新民;;从知识抽取相关概念辨析看知识抽取的特点和发展趋势[J];情报科学;2010年02期
6 吴恒亮;;基于本体和DOM树的Web信息抽取技术研究[J];情报科学;2010年07期
7 吴恒亮;;基于领域本体的Web信息抽取方法的设计与实现——以网易汽车资讯网页信息抽取为例[J];图书馆论坛;2010年03期
8 郑彦宁;化柏林;张新民;;信息检索与信息抽取差异性探析[J];图书情报工作;2007年10期
9 许鑫;黄仲清;邓三鸿;;互联网侨情信息采集系统设计与实现[J];现代图书情报技术;2010年Z1期
10 魏勇刚;张国春;常勇;袁方;;基于词性分析和领域知识的Deep Web语义标注[J];郑州大学学报(理学版);2009年01期
中国博士学位论文全文数据库 前1条
1 吴承荣;骨干通道上的网络论坛通信信息监测和分析的关键技术研究[D];复旦大学;2011年
中国硕士学位论文全文数据库 前10条
1 丁宝琼;网络文本信息采集分析关键技术研究与实现[D];解放军信息工程大学;2009年
2 孙珂;网站主题分析、标引与检索技术的研究[D];哈尔滨工业大学;2006年
3 於媛;Web信息抽取系统SEU-WIE设计与实现[D];东南大学;2006年
4 王豫;基于SOA架构异构数据源包装器的设计与实现[D];西北工业大学;2007年
5 张恒;基于军事应用的网络情报智能搜索技术[D];第四军医大学;2007年
6 王芳;基于主题的Deep Web搜索引擎研究与探索[D];长安大学;2008年
7 张天广;基于Internet的银行竞争情报收集系统的研究与实现[D];西北大学;2009年
8 仇绍刚;基于元搜索的知识获取方法与系统集成研究[D];大连理工大学;2009年
9 郭德先;一种模式发现算法及其Web信息抽取应用[D];景德镇陶瓷学院;2008年
10 李亮;基于Lucene和Heritrix的职位垂直搜索引擎的设计与实现[D];中国地质大学(北京);2010年
【同被引文献】
中国期刊全文数据库 前10条
1 郑伟;;浅谈企业竞争情报系统的建立[J];安徽冶金;2005年01期
2 丁丰,董娜,林碧琴,袁保宗;自然语言处理系统中自动分词的研究[J];北方交通大学学报;1999年06期
3 邓志鸿,唐世渭,张铭,杨冬青,陈捷;Ontology研究综述[J];北京大学学报(自然科学版);2002年05期
4 李颖新,刘全金,阮晓钢;多发性骨髓瘤基因表达谱分析[J];北京工业大学学报;2004年03期
5 汪涛,樊孝忠,顾益军,刘林;基于概念分析的主题爬虫设计[J];北京理工大学学报;2004年10期
6 史新;邹一秀;;威客模式研究述评[J];图书与情报;2009年01期
7 陈挺;刘嘉勇;夏天;范刚;;基于平板型Web论坛的信息抽取研究[J];成都信息工程学院学报;2009年01期
8 祝伟华;李嘉毅;刘斌斌;;二手汽车交易信息垂直搜索网的设计[J];重庆工学院学报(自然科学版);2008年08期
9 李哲琦;张莹;;基于XML的Web半结构化信息抽取[J];长春理工大学学报(自然科学版);2007年01期
10 李亚;;后Web2.0时代的网络特征[J];传媒;2008年01期
中国重要会议论文全文数据库 前3条
1 白硕;程学旗;郭莉;王斌;余智华;刘群;;大规模内容计算[A];语言计算与基于内容的文本处理——全国第七届计算语言学联合学术会议论文集[C];2003年
2 吴晓;李丹宁;林洁;冀肖榆;李丹;;个性化搜索引擎中用户兴趣模型的研究[A];第三届全国信息检索与内容安全学术会议论文集[C];2007年
3 杨文柱;徐林昊;郝亚南;陈少飞;李天柱;;个性化的智能Web查询助手的设计与实现[A];第十九届全国数据库学术会议论文集(技术报告篇)[C];2002年
中国博士学位论文全文数据库 前5条
1 张智雄;Internet科技信息资源门户网站(STIP)系统的实践研究[D];中国科学院文献情报中心;2000年
2 乔林;基于多关键词检索的企业竞争情报搜集方法研究[D];中国科学技术大学;2006年
3 万国根;面向内容的网络安全监控模型及其关键技术研究[D];电子科技大学;2005年
4 彭涛;面向专业搜索引擎的主题爬行技术研究[D];吉林大学;2007年
5 郑傲;网络互动中的网民自我意识研究[D];中国传媒大学;2008年
中国硕士学位论文全文数据库 前10条
1 陈兰;基于ontology的信息抽取系统的研究与实现[D];电子科技大学;2004年
2 李智;XML数据流的高效XPath查询算法[D];四川大学;2004年
3 董树明;半结构化Web信息抽取技术及其应用研究[D];东南大学;2004年
4 刘建军;基于ontology的股票信息抽取系统的研究与实现[D];电子科技大学;2005年
5 雷琼;基于本体的异构数据集成研究[D];东北大学;2005年
6 吴相智;基于XML的Web数据抽取技术的研究[D];中南大学;2005年
7 宋艳娟;基于XML的HTML和PDF信息抽取技术的研究[D];福州大学;2006年
8 沈斌;基于分词的中文文本相似度计算研究[D];天津财经大学;2006年
9 吴芬芬;信息抽取算法研究[D];吉林大学;2006年
10 明廷波;基于神经网络的Web信息抽取系统的研究与实现[D];电子科技大学;2006年
【二级引证文献】
中国期刊全文数据库 前10条
1 王立建;尹四清;;基于Web页面有效信息抽取的分类方法[J];电脑开发与应用;2010年06期
2 孙宏;李戴维;董旭阳;季泽旭;;搜索引擎技术与发展综述[J];计算机光盘软件与应用;2012年14期
3 孟军;刘秋水;王秀坤;;节点频度和语义距离相结合的网页正文信息抽取[J];计算机工程与应用;2009年01期
4 张霞亮;陈家骏;;基于逻辑行和最大接纳距离的网页正文抽取[J];计算机工程与应用;2009年25期
5 王利;刘宗田;王燕华;廖涛;;基于内容相似度的网页正文提取[J];计算机工程;2010年06期
6 彭程;吴华瑞;朱华吉;;村镇产业信息自动获取与可视化展示方法[J];计算机工程;2011年01期
7 韩忠明;李文正;莫倩;;有效HTML文本信息抽取方法的研究[J];计算机应用研究;2008年12期
8 陈钊;张冬梅;;Web信息抽取技术综述[J];计算机应用研究;2010年12期
9 刘继勇;曲文龙;;一种面向属性的论坛自动抽取方法[J];科学技术与工程;2009年24期
10 郑文标;;互联网技术在海外华文网站研究中的应用[J];华侨大学学报(哲学社会科学版);2011年02期
中国重要会议论文全文数据库 前2条
1 ;Information Extraction Algorithms and Its Application Based on Word Density in a Webpage[A];Proceedings of 2010 2nd International Conference on Intellectual Technology in Industrial Practice (ITIP2010) Volume 2[C];2010年
2 韩子扬;李贵;李征宇;王凤英;;基于分布式结构的Deep Web结构化数据抽取系统[A];第九届沈阳科学学术年会论文集[C];2012年
中国硕士学位论文全文数据库 前10条
1 胡金栋;网页正文提取及去重技术研究[D];浙江大学;2011年
2 岳国伟;基于本体的Web页面结构化信息抽取[D];山东科技大学;2007年
3 谢光华;中文网页自动分类的研究及其应用[D];大连理工大学;2007年
4 轩艳艳;基于XML的Web信息抽取研究与实现[D];武汉理工大学;2008年
5 钱大君;崇明岛生态环境数据共享平台开发研究[D];华东师范大学;2008年
6 魏丽霞;基于文本结构的近似镜像网页去重[D];山西大学;2008年
7 刘秋水;Web信息抽取与网页摘要的研究与应用[D];大连理工大学;2008年
8 孙桂煌;基于N-grams短语的中文Web文本聚类及其预处理的研究[D];江西理工大学;2009年
9 樊勇;近似镜像网页去重方法研究[D];山西大学;2009年
10 王雅玡;基于朴素贝叶斯和BP神经网络的中文文本分类问题研究[D];云南师范大学;2008年
【相似文献】
中国期刊全文数据库 前10条
1 史旗凯;郭菊娥;;管理事件信息抽取中的基本问题研究[J];情报杂志;2007年12期
2 陈挺;刘嘉勇;夏天;范刚;;基于平板型Web论坛的信息抽取研究[J];成都信息工程学院学报;2009年01期
3 魏保子;王儒敬;;基于多Agent技术的分布式信息抽取系统研究[J];微电子学与计算机;2008年06期
4 朱建华;;一种基于Web的新闻抽取方法[J];情报杂志;2010年S2期
5 石倩;陈荣;鲁明羽;;基于规则归纳的信息抽取系统实现[J];计算机工程与应用;2008年21期
6 李宏伟;史培中;张素智;;一种高效Web数据抽取包装器的设计与实现[J];计算机技术与发展;2009年02期
7 李宏伟;史培中;张素智;;一种可行的Web数据抽取包装器的设计方法[J];计算机应用与软件;2009年03期
8 张清军,朱才连;基于主动学习的Web页面信息抽取[J];情报学报;2004年06期
9 朱永盛;武港山;;基于Web的新闻信息抽取[J];计算机工程;2006年10期
10 孟宪福,狄慧;基于Agent和XML的Web页面信息抽取研究与设计[J];计算机工程与设计;2004年08期
中国重要会议论文全文数据库 前10条
1 李纪华;夏薇;;基于XML的web信息提取方法研究[A];全国高校社科信息资料研究会第六次会员代表大会暨第13次学术研讨会论文集[C];2010年
2 陈少飞;郝亚南;李天柱;张志强;张波;;Web信息抽取规则的优化[A];第二十届全国数据库学术会议论文集(研究报告篇)[C];2003年
3 崔欣辰;曲宁;陈青华;;隐马尔可夫模型在Web信息抽取中的几点改进[A];全国第4届信号和智能信息处理与应用学术会议论文集[C];2010年
4 戴玉刚;;藏文网页采集技术研究[A];民族语言文字信息技术研究——第十一届全国民族语言文字信息学术研讨会论文集[C];2007年
5 徐林昊;杨文柱;陈少飞;郝亚南;李天柱;;基于XPath的Web信息抽取[A];第十九届全国数据库学术会议论文集(研究报告篇)[C];2002年
6 徐云风;蒋文蓉;;Web页面信息抽取的分析与研究[A];IT服务促进企业信息化——第十一届中国Java技术及应用交流大会文集[C];2008年
7 冯少卿;都云程;施水才;;基于模板的网页主题信息抽取[A];第三届全国信息检索与内容安全学术会议论文集[C];2007年
8 王文生;谢能付;;基于Web的农业信息自动抽取方法研究[A];中国农业信息科技创新与学科发展大会论文汇编[C];2007年
9 丁晟春;刘逶迤;熊霞;梅健;;基于领域本体和语块分析的信息抽取的研究与实现[A];第四届全国信息检索与内容安全学术会议论文集(上)[C];2008年
10 吴平博;陈群秀;马亮;;基于时空分析的线索性事件的抽取与集成系统研究[A];全国第八届计算语言学联合学术会议(JSCL-2005)论文集[C];2005年
中国重要报纸全文数据库 前10条
1 史小敏;前景广阔的信息抽取技术[N];解放军报;2004年
2 彭芳;搜索也专业[N];中国计算机报;2004年
3 本报记者 王翌;8848:优化EC流程[N];计算机世界;2004年
4 四川大学计算机学院 陈华英;组建基于 Web 方式的数据仓库[N];网络世界;2000年
5 上海交通大学APEX数据和知识管理实验室 王昊奋俞勇;语义Web推动下一代搜索[N];计算机世界;2007年
6 司静辉;直击数字环境下情报技术发展动向[N];科技日报;2007年
7 董振东;到用户中去[N];中国计算机报;2003年
8 任一鸣;垂直搜索:抓住细分需求[N];计算机世界;2007年
9 张友林 甘肃省武威市凉州区中医院;开发中医专用软件很有必要[N];中国中医药报;2009年
10 陈伟秋 邱创泓 左梁;广州全力实施“阳光下的采购”[N];中国企业报;2003年
中国博士学位论文全文数据库 前10条
1 刘亚清;开放式环境中的本体演化及其在信息抽取的应用研究[D];大连海事大学;2011年
2 刘娜;文本自动摘要和信息抽取方法及其应用研究[D];大连海事大学;2012年
3 胡燕;基于Web信息抽取的专业知识获取方法研究[D];武汉理工大学;2007年
4 张奇;信息抽取中实体关系识别研究[D];中国科学技术大学;2010年
5 胡国平;基于超大规模问答对库和语音界面的非受限领域自动问答系统研究[D];中国科学技术大学;2007年
6 余传明;基于本体的语义信息系统研究[D];武汉大学;2005年
7 钱伟中;基于判别式模型的蛋白质互作用文本挖掘技术研究[D];电子科技大学;2011年
8 张乃洲;实体搜索爬虫和信息抽取研究[D];武汉大学;2011年
9 陈治平;智能搜索引擎理论与应用研究[D];湖南大学;2003年
10 滕伟;面向Web信息集成的Web信息抽取中若干关键问题的研究[D];上海交通大学;2007年
中国硕士学位论文全文数据库 前10条
1 张志强;Web信息抽取技术研究与基于Web service的实现[D];河北大学;2004年
2 石倩;Web信息抽取规则及其学习算法[D];大连海事大学;2008年
3 余淼;主题搜索引擎的信息抽取和索引的研究[D];重庆大学;2007年
4 张绍华;基于实例的Web信息抽取[D];河北大学;2001年
5 金璐钰;基于框架的事件抽取关键技术研究[D];苏州大学;2010年
6 杨柱;基于DIV标签树的网页主题信息抽取方法[D];湖南大学;2010年
7 陈兰;基于ontology的信息抽取系统的研究与实现[D];电子科技大学;2004年
8 孟令谦;基于ontology的中文信息抽取系统的研究与实现[D];电子科技大学;2004年
9 杨文柱;基于领域知识和信息抽取的个性化Web查询系统[D];河北大学;2002年
10 狄慧;基于Agent的Web信息抽取研究[D];大连理工大学;2004年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62791813
  • 010-62985026