收藏本站
《河北大学学报(自然科学版)》 2001年04期
收藏 | 投稿 | 手机打开
二维码
手机客户端打开本文

基于样本实例的Web信息抽取

张绍华  徐林昊  杨文柱  薛文玲  李天柱  
【摘要】:主要研究了基于HTML文档的信息抽取 ,提出了一种基于样本实例的Web信息抽取的方法 .用户首先选定样本页面和预先定义模式 (基于O -R模型 ) ,然后对样本页面和其中的样本记录进行标记、学习 ,形成信息抽取规则 ,并存入知识库 ;利用知识库对其他同类页面自动抽取所需的信息 ,存入数据库中 .本方法可用于Web查询 ,也可用于信息集成的包装器 .

【引证文献】
中国期刊全文数据库 前10条
1 阎亚杰;;网页去重方法研究[J];电脑开发与应用;2008年08期
2 李春艳;徐保民;;Web数据抽取技术研究初探[J];电脑知识与技术;2009年35期
3 程显林;王敬山;韩冬;姜建国;;互联网络科技信息自动抽取系统的开发[J];大庆石油学院学报;2008年06期
4 蓝军;;EXCEL2002数据的WEB发布与利用[J];高校实验室工作研究;2006年01期
5 陈少飞,郝亚南,李天柱,徐林昊,杨文柱;Web信息抽取技术研究进展[J];河北大学学报(自然科学版);2003年01期
6 宋洁;张娜;刘艳柳;顾军华;;基于XML的WEB信息自动抽取方法的研究[J];河北工业大学学报;2010年05期
7 王茹,宋瀚涛,陆玉昌;网页数据自动抽取系统[J];计算机工程与应用;2004年19期
8 胡安安;陈晋;;基于知识库的Web文本挖掘模型K-WebMiner[J];科技导报;2006年04期
9 张小英;;EXCEL 2002数据的WEB发布与利用[J];内江科技;2007年06期
10 丁雪枫;马良;丁雪松;;基于Web2.0数据挖掘的虚拟企业合作伙伴选择决策支持系统研究[J];科学技术与工程;2008年19期
中国重要会议论文全文数据库 前1条
1 蒲宇达;关毅;王强;;基于数据挖掘思想的网页正文抽取方法的研究[A];第三届学生计算语言学研讨会论文集[C];2006年
中国博士学位论文全文数据库 前1条
1 胡燕;基于Web信息抽取的专业知识获取方法研究[D];武汉理工大学;2007年
中国硕士学位论文全文数据库 前10条
1 范春晓;基于XML的Web信息抽取技术研究[D];沈阳理工大学;2010年
2 谷文;基于概念树的Web信息抽取技术研究[D];长春工业大学;2010年
3 董锐;基于区域定位的购物网站商品信息抽取方法[D];湖南大学;2009年
4 连小刚;基于DOM的Web信息抽取系统设计与实现[D];华中科技大学;2009年
5 卢睿;基于XML的Web信息抽取研究[D];大连海事大学;2005年
6 王煜;Internet智能比较购物的研究与实现[D];浙江工商大学;2006年
7 苟全登;基于XML的半结构化Web信息提取的研究[D];电子科技大学;2006年
8 贡正仙;基于网格的Web信息抽取技术的研究与实现[D];苏州大学;2006年
9 李佳;面向移动平台的网络信息获取技术的研究与实现[D];哈尔滨工业大学;2006年
10 蒲宇达;基于web的网页链接与正文抽取技术研究[D];哈尔滨工业大学;2006年
【参考文献】
中国期刊全文数据库 前1条
1 黄豫清,戚广志,张福炎;从WEB文档中构造半结构化信息的抽取器[J];软件学报;2000年01期
【共引文献】
中国期刊全文数据库 前10条
1 刘金红,夏阳,陆余良;基于Ontology的网络元数据抽取系统的研究与实现[J];安徽电子信息职业技术学院学报;2004年Z1期
2 翟东升;杨洋;;基于XML技术的USPTO专利抽取系统[J];北京工业大学学报;2011年04期
3 程渤,浮花玲,杨国纬;基于工作流及集成中间件技术的电力信息一体化设计及实现[J];电力系统自动化;2004年19期
4 张海强,张永;网络用法挖掘及其应用[J];兰州理工大学学报;2004年05期
5 陈少飞,郝亚南,李天柱,徐林昊,杨文柱;Web信息抽取技术研究进展[J];河北大学学报(自然科学版);2003年01期
6 邓春晖,黄冬梅;半结构化数据OEM图的获取及应用[J];海南师范学院学报(自然科学版);2002年01期
7 李石君;于俊清;欧伟杰;;基于HTML模式代数的Web信息提取方法[J];计算机研究与发展;2006年09期
8 李朝光,张铭,邓志鸿,杨冬青,唐世渭;论文元数据信息的自动抽取[J];计算机工程与应用;2002年21期
9 崔维,陈闳中;用技术手段解决“初始混淆”——一个法律问题引出的技术问题[J];计算机工程与应用;2003年01期
10 李文奇,张忠能;页面包装器自动生成的改进算法[J];计算机工程与应用;2004年22期
中国重要会议论文全文数据库 前1条
1 杨建武;陈晓鸥;;半结构化文档集的结构化处理及其Web发布[A];第十八届全国数据库学术会议论文集(研究报告篇)[C];2001年
中国博士学位论文全文数据库 前10条
1 张智雄;Internet科技信息资源门户网站(STIP)系统的实践研究[D];中国科学院文献情报中心;2000年
2 简(王争)峰;基于XML的异构产品信息网上交换、检索技术研究与应用[D];浙江大学;2002年
3 陈治平;智能搜索引擎理论与应用研究[D];湖南大学;2003年
4 朱征宇;Web资源组织与服务性能研究[D];重庆大学;2003年
5 周明建;基于本体的开放式知识管理研究[D];浙江大学;2004年
6 张友华;面向智能服务的Web内容计算研究与应用[D];中国科学技术大学;2006年
7 谢学敏;基于动态流通语料库(DCC)的流行语释义信息自动提取研究[D];北京语言大学;2006年
8 何丽;基于Web挖掘的决策支持系统模型研究[D];天津大学;2005年
9 张永进;面向防汛抗旱指挥系统的应用集成中间件平台研究[D];西北大学;2007年
10 周顺先;文本信息抽取模型及算法研究[D];湖南大学;2007年
中国硕士学位论文全文数据库 前10条
1 孙岭;一种基于前缀表达式的Web信息抽取方法的关键问题的实现[D];山东科技大学;2010年
2 余璟飞;企业信息网用户决策支持系统设计[D];哈尔滨理工大学;2010年
3 刘向辉;专题性智能搜索引擎的研究与实现[D];昆明理工大学;2001年
4 张绍华;基于实例的Web信息抽取[D];河北大学;2001年
5 唐志文;搜索引擎中数据对象研究[D];湖南大学;2001年
6 蒋伟华;搜索引擎中的信息抽取技术研究[D];湖南大学;2001年
7 陈少飞;Web信息抽取规则的优化及规则的XQuery表达[D];河北大学;2003年
8 管冬根;Web文档中信息的获取与表示研究[D];重庆大学;2003年
9 邓丽;面向主题的XML网页的模式和数据抽取[D];华侨大学;2004年
10 张海强;Web挖掘及其应用[D];兰州理工大学;2004年
【同被引文献】
中国期刊全文数据库 前10条
1 谢新洲,包昌火,张燕;论企业竞争情报系统的建设[J];北京大学学报(哲学社会科学版);2001年06期
2 王茹,宋瀚涛,陆玉昌;基于树自动机的网页数据抽取[J];北京理工大学学报;2004年09期
3 李蕾;周延泉;王菁华;;基于全信息的中文信息抽取系统及应用[J];北京邮电大学学报;2005年06期
4 王永军;董平;;企业动态联盟决策支持系统研究[J];北京理工大学学报(社会科学版);2006年02期
5 傅骞;温晓辉;;开放式Web信息抽取系统研究与实现[J];北京师范大学学报(自然科学版);2005年06期
6 何章鸿;董守斌;;基于XPath的广告数据提取研究[J];江西师范大学学报(自然科学版);2008年02期
7 纪祥;刘华虓;吴芬芬;刘磊;;基于特征和HMM的信息提取[J];吉林大学学报(信息科学版);2009年04期
8 袁晓峰;;一种基于主题的Web文本聚类算法[J];成都大学学报(自然科学版);2010年03期
9 李哲琦;张莹;;基于XML的Web半结构化信息抽取[J];长春理工大学学报(自然科学版);2007年01期
10 吴相智,刘卫国,费洪晓;一种基于栈结构的HTML到XML的转换方法[J];长沙交通学院学报;2004年02期
中国重要会议论文全文数据库 前3条
1 武洪萍;周国祥;;Web文本挖掘研究[A];计算机技术与应用进展·2007——全国第18届计算机技术与应用(CACIS)学术会议论文集[C];2007年
2 王文生;谢能付;;基于Web的农业信息自动抽取方法研究[A];中国农业信息科技创新与学科发展大会论文汇编[C];2007年
3 陈静;朱巧明;贡正仙;李培锋;;特定本体指导的信息抽取技术研究[A];内容计算的研究与应用前沿——第九届全国计算语言学学术会议论文集[C];2007年
中国博士学位论文全文数据库 前7条
1 张智雄;Internet科技信息资源门户网站(STIP)系统的实践研究[D];中国科学院文献情报中心;2000年
2 聂培尧;基于XML的半结构数据管理及数据集成问题研究[D];西北工业大学;2002年
3 陈莉;KDD中的几个关键问题研究[D];西安电子科技大学;2003年
4 乔林;基于多关键词检索的企业竞争情报搜集方法研究[D];中国科学技术大学;2006年
5 张晓琳;面向对象的XML数据管理技术研究[D];东北大学;2006年
6 贾自艳;Web信息智能获取若干关键问题研究[D];中国科学院研究生院(计算技术研究所);2004年
7 丁艳辉;面向Web数据集成的数据抽取问题研究[D];山东大学;2010年
中国硕士学位论文全文数据库 前10条
1 吕晓辉;Web信息提取技术研究[D];西北工业大学;2001年
2 李盛;面向真实文本的汉语词义排歧系统[D];山西大学;2003年
3 杨文柱;基于领域知识和信息抽取的个性化Web查询系统[D];河北大学;2002年
4 陈少飞;Web信息抽取规则的优化及规则的XQuery表达[D];河北大学;2003年
5 温泉;WAP页面转换的实现技术研究[D];河海大学;2004年
6 朱素媛;网络教育中的智能搜索引擎的研究[D];合肥工业大学;2004年
7 邓丽;面向主题的XML网页的模式和数据抽取[D];华侨大学;2004年
8 狄慧;基于Agent的Web信息抽取研究[D];大连理工大学;2004年
9 董树明;半结构化Web信息抽取技术及其应用研究[D];东南大学;2004年
10 张校乾;基于Lucene的全文检索系统的研究与应用[D];大连理工大学;2005年
【二级引证文献】
中国期刊全文数据库 前10条
1 高博;朱东华;韩士雄;;一种智能化的信息采集系统的研究与实现[J];兵工学报;2009年S1期
2 冯少卿;都云程;;网页结构模板生成新方法研究[J];北京机械工业学院学报;2007年03期
3 林昌平;郑皎凌;;基于DOM规范的网页分析技术研究[J];成都信息工程学院学报;2007年S1期
4 满鹏;;海量文档信息的高效检索算法[J];长春大学学报;2008年02期
5 李敏;赵君;;垂直搜索引擎爬虫系统的设计[J];长江大学学报(自然科学版)理工卷;2010年03期
6 张玉连;王莎莎;宋桂江;;基于元搜索的网页去重算法[J];燕山大学学报;2011年02期
7 王楠;;一种实现Web数据到XML文档的转换算法[J];大连海事大学学报;2010年03期
8 宋明秋;张瑞雪;吴新涛;李文立;;网页正文信息抽取新方法[J];大连理工大学学报;2009年04期
9 王立建;尹四清;;基于Web页面有效信息抽取的分类方法[J];电脑开发与应用;2010年06期
10 赵文;唐建雄;高庆锋;;基于统计的中文网页正文抽取的研究[J];电脑知识与技术;2008年01期
中国重要会议论文全文数据库 前7条
1 胡飞;;一种Web页面的主题区域搜索方法[A];2008年计算机应用技术交流会论文集[C];2008年
2 李纪华;夏薇;;基于XML的web信息提取方法研究[A];全国高校社科信息资料研究会第六次会员代表大会暨第13次学术研讨会论文集[C];2010年
3 王春元;张韬;;一种获取网页主要中文信息的方法[A];全国计算机安全学术交流会论文集(第二十四卷)[C];2009年
4 时达明;林鸿飞;杨志豪;;基于网页框架和规则的网页噪音去除方法[A];第三届学生计算语言学研讨会论文集[C];2006年
5 蒲宇达;关毅;王强;;基于数据挖掘思想的网页正文抽取方法的研究[A];第三届学生计算语言学研讨会论文集[C];2006年
6 冯少卿;都云程;施水才;;基于模板的网页主题信息抽取[A];第三届全国信息检索与内容安全学术会议论文集[C];2007年
7 ;Information Extraction Algorithms and Its Application Based on Word Density in a Webpage[A];Proceedings of 2010 2nd International Conference on Intellectual Technology in Industrial Practice (ITIP2010) Volume 2[C];2010年
中国博士学位论文全文数据库 前4条
1 胡燕;基于Web信息抽取的专业知识获取方法研究[D];武汉理工大学;2007年
2 王春元;公共网络信息系统安全管理的研究[D];合肥工业大学;2009年
3 杨鸿;教师教学知识的统整研究[D];西南大学;2010年
4 王萍;网络环境下的领域知识挖掘[D];华东师范大学;2010年
中国硕士学位论文全文数据库 前10条
1 孙岭;一种基于前缀表达式的Web信息抽取方法的关键问题的实现[D];山东科技大学;2010年
2 白冰;基于数据处理中心的企业竞争情报系统研究[D];山东科技大学;2010年
3 罗义兵;领域文本相似度计算方法研究[D];山东科技大学;2010年
4 王乐超;Web环境下文献信息的提取与匹配研究[D];大连理工大学;2010年
5 方少卿;Web就业信息抽取系统的实现研究[D];合肥工业大学;2010年
6 安鹏举;铁龙公司虚拟物流企业伙伴选择问题研究[D];大连海事大学;2010年
7 范春晓;基于XML的Web信息抽取技术研究[D];沈阳理工大学;2010年
8 谷文;基于概念树的Web信息抽取技术研究[D];长春工业大学;2010年
9 孟祥燕;问答对自动获取的研究[D];昆明理工大学;2008年
10 陶小波;电子就业文本挖掘系统关键技术研究与应用[D];浙江工商大学;2011年
【相似文献】
中国期刊全文数据库 前10条
1 陈华昌;薛永生;任仲晟;张东站;;基于最大频繁等价类的Web信息自动抽取[J];计算机科学;2006年12期
2 吴文环;中国科技文化政策历史研究[J];科学管理研究;1997年05期
3 安学民,原忠林;计算机辅助教学的特点与模式[J];山西教育学院学报;1999年04期
4 王保兴;建立图书馆现代化文化信息交流与传播的新模式[J];现代图书情报技术;2000年S2期
5 许芸;模糊数据库模型的自学习系统[J];黑龙江商学院学报(自然科学版);2000年01期
6 温健;CAI软件的开发模式[J];电脑开发与应用;2001年07期
7 黄孟黎;21世纪图书馆发展模式与功能——相关问题的探讨[J];高校图书馆工作;2001年01期
8 黄友福;入世与我国高校图书馆发展模式[J];邵阳师范高等专科学校学报;2001年06期
9 尤众喜;教学网站的建设和基于网络的教学功能的实现[J];电化教育研究;2002年05期
10 王海刚;技术创新模式探析及选择[J];技术与创新管理;2004年01期
中国重要会议论文全文数据库 前10条
1 李仕明;张瑞;宋道全;;企业管理“人格化”模式研究[A];管理科学与系统科学进展——全国青年管理科学与系统科学论文集(第4卷)[C];1997年
2 李亦军;杨桂甲;;完善稻麦供种体系 探索统一供种模式[A];论中国种子工程——全国种子工程学术研讨会论文集[C];1996年
3 张学文;蔡健;;关于拓宽专业口径的几点思考[A];中国土木工程学会第八届年会论文集[C];1998年
4 王会清;方天纵;李翠文;;蓟县五百户小流域综合治理模式[A];中国水土保持探索与实践——小流域可持续发展研讨会论文集[C];2005年
5 周莹莹;;学生品德心理结构及其对学校德育的启示[A];第十届全国心理学学术大会论文摘要集[C];2005年
6 蔡广林;韦化;;网格计算及其在电力系统的应用初探[A];广西电机工程学会第九届青年学术论坛论文集[C];2006年
7 李俊华;;环境会计与可持续发展[A];中国环境科学学会2006年学术年会优秀论文集(中卷)[C];2006年
8 蔡东联;;营养治疗小组在营养治疗中的作用[A];2006年浙江省肠外肠内营养学学术年会论文汇编[C];2006年
9 宋国君;宋宇;;国家级流域水环境保护总体规划一般模式研究[A];中国环境科学学会2009年学术年会论文集(第三卷)[C];2009年
10 王然;;中国旅游大区域整合的特征与模式研究[A];旅游业:推动产业升级和城市转型——第十三届全国区域旅游开发学术研讨会论文集[C];2008年
中国重要报纸全文数据库 前10条
1 CPW执行总编 关健;“模式样板”时代的终结[N];电脑商报;2005年
2 本报记者 魏红欣 实习生 崔笑愚 ;“中欧模式”,美国会拿来照用吗[N];国际金融报;2005年
3 罗经;剖析普洛斯地产模式[N];国际商报;2005年
4 北京交通大学博士生 胡跃龙;“低价厚报”模式应当反思[N];光明日报;2005年
5 若 木;上海海关:助联想集团VMI模式成功运作[N];中国国门时报;2005年
6 经济视点报记者:李浩 □见习记者:司超慧;百货模式“激活”汽车后市场[N];经济视点报;2005年
7 记者 杜秋英;解析“天津模式”[N];金融时报;2005年
8 卢亮;工作时间安排模式的发展趋势及运用[N];中国劳动保障报;2004年
9 本报记者 黄河;“建银模式”能否救券商[N];南方周末;2005年
10 李元莎 何顺文;金融控股公司模式与法谋规则[N];21世纪经济报道;2005年
中国博士学位论文全文数据库 前10条
1 姜恩来;退耕还林工程管理机制和管理模式研究[D];北京林业大学;2005年
2 盖艳梅;金融控股公司模式论[D];中共中央党校;2005年
3 薛伟;现代远程教育5S学习支持模式研究[D];华东师范大学;2009年
4 李文清;西部产业集群发展因素及模式研究[D];西南交通大学;2007年
5 李平;我国企业智力资本开发研究[D];哈尔滨工程大学;2006年
6 王海勤;中国石油城市可持续发展模式研究[D];哈尔滨工程大学;2006年
7 张小红;智力资本及其管理研究[D];中国农业科学院;2007年
8 王欢苗;企业社区关系管理研究[D];辽宁大学;2007年
9 李涛;矿业权二级市场建设模式与交易机制研究[D];中国地质大学(北京);2008年
10 吴前进;资源型城市经济转型理论与模式优化研究[D];中国地质大学(北京);2008年
中国硕士学位论文全文数据库 前10条
1 方莹;基于句子聚类的信息抽取方法研究[D];山西大学;2005年
2 金璐钰;基于框架的事件抽取关键技术研究[D];苏州大学;2010年
3 杨柱;基于DIV标签树的网页主题信息抽取方法[D];湖南大学;2010年
4 邓丽;面向主题的XML网页的模式和数据抽取[D];华侨大学;2004年
5 田红;表格信息抽取引擎的设计与实现[D];西北师范大学;2004年
6 杨文柱;基于领域知识和信息抽取的个性化Web查询系统[D];河北大学;2002年
7 张志强;Web信息抽取技术研究与基于Web service的实现[D];河北大学;2004年
8 陈兰;基于ontology的信息抽取系统的研究与实现[D];电子科技大学;2004年
9 孟令谦;基于ontology的中文信息抽取系统的研究与实现[D];电子科技大学;2004年
10 王花;Web信息抽取技术研究[D];西北农林科技大学;2010年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62791813
  • 010-62985026