收藏本站
《北京理工大学学报》 2004年09期
收藏 | 投稿 | 手机打开
二维码
手机客户端打开本文

基于树自动机的网页数据抽取

王茹  宋瀚涛  陆玉昌  
【摘要】:为了自动将数据从HTML网页中抽取出来,采取树自动机推断方式进行数据抽取.核心思想是将样本网页转化为二叉树并构建出能够接受这些网页二叉树的树自动机,利用所得到的树自动机对待抽取网页的接受和拒绝状态进行数据抽取.该方法充分利用了HTML文档内在的树状结构,设计了简单方便的样本网页标注形式.实验表明,该方法的抽取性能在查全率和F值方面优于其它的一些数据抽取方法.

【引证文献】
中国重要会议论文全文数据库 前1条
1 唐超;刘辰;杨正球;;使用多层迭代分析和分类网页文档的方法[A];2007北京地区高校研究生学术交流会通信与信息技术会议论文集(上册)[C];2008年
中国硕士学位论文全文数据库 前5条
1 卢睿;基于XML的Web信息抽取研究[D];大连海事大学;2005年
2 石宇;基于XML的Web信息抽取与集成技术的研究[D];大连海事大学;2006年
3 王柏;中文资讯搜索引擎产品技术的研究和应用[D];吉林大学;2006年
4 苟全登;基于XML的半结构化Web信息提取的研究[D];电子科技大学;2006年
5 程书红;基于XML的Web信息抽取设计与实现[D];重庆大学;2007年
【共引文献】
中国期刊全文数据库 前10条
1 李向阳,陆建江,张亚非;基于竞争分类的Web信息抽取[J];电子学报;2004年11期
2 李向阳;戴江山;张亚非;;一种Web信息抽取规则的优化方法[J];兰州理工大学学报;2006年01期
3 潘晔;任广伟;舒艳;;利用本体进行Web数据集成[J];贵州工业大学学报(自然科学版);2006年03期
4 李石君;于俊清;欧伟杰;;基于HTML模式代数的Web信息提取方法[J];计算机研究与发展;2006年09期
5 王茹,宋瀚涛,陆玉昌;网页数据自动抽取系统[J];计算机工程与应用;2004年19期
6 许建潮,侯锟;Web信息的自主抽取方法[J];计算机工程与应用;2005年14期
7 王亮,朱征宇;基于扩展标记图的Web信息抽取器[J];计算机工程;2005年08期
8 朱永盛;武港山;;基于Web的新闻信息抽取[J];计算机工程;2006年10期
9 厉小润;基于XML的可分发Web客户端的研究与实现[J];计算机应用;2003年06期
10 刘政怡;基于DOM和元数据的Web信息提取[J];计算机与现代化;2003年10期
中国重要会议论文全文数据库 前2条
1 翟伟斌;许榕生;;基于Internet的CIS研究[A];第十三届全国核电子学与核探测技术学术年会论文集(下册)[C];2006年
2 王文生;谢能付;;基于Web的农业信息自动抽取方法研究[A];中国农业信息科技创新与学科发展大会论文汇编[C];2007年
中国博士学位论文全文数据库 前6条
1 张友华;面向智能服务的Web内容计算研究与应用[D];中国科学技术大学;2006年
2 张素香;信息抽取中关键技术的研究[D];北京邮电大学;2007年
3 胡国平;基于超大规模问答对库和语音界面的非受限领域自动问答系统研究[D];中国科学技术大学;2007年
4 周顺先;文本信息抽取模型及算法研究[D];湖南大学;2007年
5 董宝力;Web制造资源的语义发现关键技术研究[D];浙江大学;2007年
6 胡燕;基于Web信息抽取的专业知识获取方法研究[D];武汉理工大学;2007年
中国硕士学位论文全文数据库 前10条
1 吕岷;基于XML的产品信息发布系统[D];武汉科技大学;2002年
2 蒋蔚;面向信息化制造的设备状态信息监视系统开发[D];南京航空航天大学;2003年
3 杨友河;基于XML的ERP环境下的人力资源管理系统研究[D];昆明理工大学;2004年
4 赵珺;基于Web的无机材料网络课件开发平台的研究与应用[D];中南大学;2004年
5 刘云中;基于隐马尔可夫模型的文本信息抽取算法研究[D];湖南大学;2004年
6 张谦;基于Web的数据仓库系统在生产计划管理中的应用研究[D];重庆大学;2004年
7 许发见;元数据在教学网站中的应用研究[D];河海大学;2004年
8 林智华;基于XML、Web Services的异构数据共享机制的研究及在电子政务中的应用[D];福州大学;2005年
9 李志欣;基于COM的矢量图形编辑系统的数据管理研究[D];华中科技大学;2004年
10 李永量;基于SALT的网上直销系统的实现[D];四川大学;2004年
【同被引文献】
中国期刊全文数据库 前10条
1 赫枫龄,左万利;用有向图法解决网页爬行中循环链接问题[J];吉林大学学报(理学版);2004年03期
2 严威,赵政;开发中文搜索引擎汉语处理的关键技术[J];计算机工程;1999年06期
3 王丽娟;关守义;王晓龙;王熙照;;基于属性权重的Fuzzy C Mean算法[J];计算机学报;2006年10期
4 周宏广,周继承,彭银桥,龙思锐;数据ETL工具通用框架设计[J];计算机应用;2003年12期
5 朱恒民;王宁生;;一种改进的相似重复记录检测方法[J];控制与决策;2006年07期
6 刘畅;;综合搜索引擎与垂直搜索引擎的比较研究[J];情报科学;2007年01期
7 郭志懋,周傲英;数据质量和数据清洗研究综述[J];软件学报;2002年11期
8 肖冬梅;垂直搜索引擎研究[J];图书馆学研究;2003年02期
9 叶卫国,卢正鼎,王天江;基于Hyperlink聚类的网页分类研究[J];华中科技大学学报(自然科学版);2004年12期
10 刘昌钰,唐常杰,于中华,杜永萍,郭颖;基于潜在语义分析的BBS文档Bayes鉴别器[J];计算机学报;2004年04期
中国重要会议论文全文数据库 前1条
1 冯少卿;都云程;施水才;;基于模板的网页主题信息抽取[A];第三届全国信息检索与内容安全学术会议论文集[C];2007年
中国博士学位论文全文数据库 前3条
1 张素香;信息抽取中关键技术的研究[D];北京邮电大学;2007年
2 周顺先;文本信息抽取模型及算法研究[D];湖南大学;2007年
3 聂培尧;基于XML的半结构数据管理及数据集成问题研究[D];西北工业大学;2002年
中国硕士学位论文全文数据库 前10条
1 王晓伟;垂直搜索引擎若干关键技术的研究[D];浙江大学;2007年
2 任函;大规模中文网页的自动分类研究[D];华中师范大学;2006年
3 胡燕;Web信息内容及其特征提取方法研究[D];河北农业大学;2008年
4 王守信;基于模型驱动的数据映射技术研究[D];大庆石油学院;2005年
5 张世勇;网通本地计费帐务系统中客户资料子系统设计实现及客户关系管理[D];天津大学;2006年
6 孙凯;数据仓库查询优化及索引技术的研究[D];山东大学;2007年
7 冯林;XML查询处理结构中的一种逻辑优化算法[D];西南大学;2008年
8 杨文柱;基于领域知识和信息抽取的个性化Web查询系统[D];河北大学;2002年
9 陈少飞;Web信息抽取规则的优化及规则的XQuery表达[D];河北大学;2003年
10 邓丽;面向主题的XML网页的模式和数据抽取[D];华侨大学;2004年
【二级引证文献】
中国硕士学位论文全文数据库 前3条
1 陈龙;基于WEB信息抽取的企业竞争情报系统研究[D];合肥工业大学;2007年
2 王婷;面向授权管理的动态网页资源描述与搜集技术研究[D];解放军信息工程大学;2007年
3 轩艳艳;基于XML的Web信息抽取研究与实现[D];武汉理工大学;2008年
【相似文献】
中国期刊全文数据库 前10条
1 李伦;李东;田志宏;;一种针对大规模URL关键字的多模匹配算法[J];智能计算机与应用;2011年03期
2 周佳骏;马瑞兴;王峰;李肖坚;;P2P网络下的可移动情报发布/订阅模型[J];情报杂志;2011年06期
3 袁敏;黄志球;李祥;;支持业务事务验证的服务协调模型[J];小型微型计算机系统;2011年09期
4 ;[J];;年期
5 ;[J];;年期
6 ;[J];;年期
7 ;[J];;年期
8 ;[J];;年期
9 ;[J];;年期
10 ;[J];;年期
中国重要会议论文全文数据库 前10条
1 周相兵;;基于Ontology的语义Web服务聚合自动机研究及应用[A];第二十七届中国控制会议论文集[C];2008年
2 张文东;袁春风;武港山;;基于视觉的网页数据抽取[A];2009年研究生学术交流会通信与信息技术论文集[C];2009年
3 陈传钩;王新生;任建玲;;一种高效的多模式匹配算法[A];2006年全国理论计算机科学学术年会论文集[C];2006年
4 李书旺;;计算机用户群的安全控制[A];第三次全国计算机安全技术交流会论文集[C];1988年
5 孙守卿;李廉;章超;李彩虹;;基于模型检测工具SPIN的安全协议形式化分析[A];2005年全国理论计算机科学学术年会论文集[C];2005年
6 王学;郝应光;;一种基于P2P的网络拓扑发现算法[A];2007通信理论与技术新发展——第十二届全国青年通信学术会议论文集(下册)[C];2007年
7 王洪肖;刘威;于贺玲;;基于XML技术的WEB数据收集模型的研究[A];低碳经济与科学发展——吉林省第六届科学技术学术年会论文集[C];2010年
8 房鼎益;王莉娜;王丽苹;吴晓南;陈晓江;;网络入侵事件协同分析与响应技术研究[A];全国网络与信息安全技术研讨会’2004论文集[C];2004年
9 杨小伟;姚秋林;程学旗;;分布式入侵检测系统的配置分发策略研究[A];第三届全国信息检索与内容安全学术会议论文集[C];2007年
10 蔡彪;廖闻剑;彭艳兵;;Deep Web数据集成和关键技术综述[A];2009年研究生学术交流会通信与信息技术论文集[C];2009年
中国重要报纸全文数据库 前2条
1 邮电数据网络集成开发中心 张颖辉 施海舟;TotalBilling数据业务计费系统(Windows 2000版)[N];计算机世界;2001年
2 ;下一代网络服务管理系统eSM[N];人民邮电;2001年
中国博士学位论文全文数据库 前7条
1 丁艳辉;面向Web数据集成的数据抽取问题研究[D];山东大学;2010年
2 张文涛;E-Service接口行为分析及其在服务组合中的应用[D];北京邮电大学;2007年
3 马安香;基于结果模式的Deep Web数据集成关键技术研究[D];东北大学 ;2009年
4 王秀群;可实用的拜占庭容错系统理论研究[D];浙江大学;2007年
5 徐和祥;Deep Web集成中若干技术研究[D];复旦大学;2008年
6 张万松;支持压缩域查询的XML数据压缩方法研究[D];哈尔滨工程大学;2005年
7 闫中敏;Deep Web数据获取问题研究[D];山东大学;2010年
中国硕士学位论文全文数据库 前10条
1 黄建才;入侵检测中高效的模式匹配算法的研究[D];河北大学;2004年
2 吴相智;基于XML的Web数据抽取技术的研究[D];中南大学;2005年
3 吕晓斌;分布式协同入侵检测算法及告警融合研究[D];中国人民解放军信息工程大学;2005年
4 靳瑞萍;基于web service的领域(domain)数据抽取及导入模型的研究[D];河海大学;2004年
5 吴俊霖;基于半自动化WEB数据抽取器的信息集成研究[D];西南大学;2010年
6 邓丽;面向主题的XML网页的模式和数据抽取[D];华侨大学;2004年
7 齐鹏;基于结果模式的Deep Web数据抽取机制的研究[D];东北大学;2008年
8 刘为;Deep Web环境下数据抽取及模式识别的研究[D];东北大学;2008年
9 魏勇刚;Deep Web数据抽取及语义标注研究[D];河北大学;2009年
10 高亚;Deep Web数据集成系统中数据抽取与语义标注研究[D];河北大学;2010年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62791813
  • 010-62985026