收藏本站
《计算机应用》 2006年08期
收藏 | 投稿 | 手机打开
二维码
手机客户端打开本文

基于相似页面的Web信息抽取系统的实现

贡正仙  朱巧明  李培峰  
【摘要】:分析了RoadRunner的核心算法,针对RoadRunner的不足,综合自动和半自动抽取阶段的各项研究成果,设计并实现了基于相似页面的W eb信息抽取系统。介绍了系统结构和实现的关键技术,包括如何获取相似页面,可靠的噪声处理和自动归纳抽取规则的算法。

手机知网App
【引证文献】
中国硕士学位论文全文数据库 前3条
1 何莉;基于Web信息抽取的个性化信息服务研究与实现[D];华东师范大学;2007年
2 张伟;基于视觉特征的Web信息抽取技术的研究与实现[D];华东师范大学;2008年
3 陈意;垂直搜索中自动信息抽取关键技术的研究与实践[D];浙江大学;2008年
【参考文献】
中国期刊全文数据库 前2条
1 王茹,宋瀚涛,陆玉昌;网页数据自动抽取系统[J];计算机工程与应用;2004年19期
2 李文奇,张忠能;页面包装器自动生成的改进算法[J];计算机工程与应用;2004年22期
【共引文献】
中国期刊全文数据库 前7条
1 胡飞;;基于标记树的Web页面区域划分和搜索方法[J];计算机科学;2005年08期
2 黄文蓓;杨静;顾君忠;;基于分块的网页正文信息提取算法研究[J];计算机应用;2007年S1期
3 欧健文,董守斌,蔡斌;模板化网页主题信息的提取方法[J];清华大学学报(自然科学版);2005年S1期
4 吴鹏飞;孟祥增;刘俊晓;马凤娟;;基于结构与内容的网页主题信息提取研究[J];山东大学学报(理学版);2006年03期
5 龙波;邓健爽;陈琼;;基于网页布局及关键词组的垂直搜索技术[J];现代计算机;2006年09期
6 胡冬梅;泰达图书馆个性化信息服务系统的探索与实践[J];现代图书情报技术;2004年10期
7 张健,欧红;应用正则式抽取Google网页内容[J];现代图书情报技术;2005年09期
中国重要会议论文全文数据库 前3条
1 李连霞;马军;陈竹敏;;基于多特征的网页内容提取研究[A];第三届和谐人机环境联合学术会议(HHME2007)论文集[C];2007年
2 时达明;林鸿飞;杨志豪;;基于网页框架和规则的网页噪音去除方法[A];第三届学生计算语言学研讨会论文集[C];2006年
3 冯少卿;都云程;施水才;;基于模板的网页主题信息抽取[A];第三届全国信息检索与内容安全学术会议论文集[C];2007年
中国博士学位论文全文数据库 前3条
1 彭涛;面向专业搜索引擎的主题爬行技术研究[D];吉林大学;2007年
2 易明;基于Web挖掘的电子商务个性化推荐机理与方法研究[D];华中科技大学;2006年
3 胡燕;基于Web信息抽取的专业知识获取方法研究[D];武汉理工大学;2007年
中国硕士学位论文全文数据库 前10条
1 沈建良;基于本体论的个性化信息搜索系统研究[D];哈尔滨工程大学;2005年
2 江导;基于WEB信息集成方法的研究及应用[D];暨南大学;2005年
3 付克志;基于Web的文本信息检索算法的研究[D];大连理工大学;2006年
4 张博;基于内容安全的中文网页过滤系统[D];西安电子科技大学;2006年
5 王煜;Internet智能比较购物的研究与实现[D];浙江工商大学;2006年
6 刘军;网页采集、净化与分类[D];浙江工商大学;2006年
7 吴旭东;基于本体的可定制化网页信息智能提取技术研究[D];浙江大学;2006年
8 孙辉;中文人名搜索引擎的设计与实现[D];兰州大学;2006年
9 刘飚;基于新型坐标树的页面分析和内容提取框架[D];北京邮电大学;2006年
10 姜威;基于Agent技术的智能辅助浏览技术研究[D];东北大学;2006年
【同被引文献】
中国期刊全文数据库 前10条
1 雷鸣,王建勇,赵江华,单松巍,陈葆珏;第三代搜索引擎与天网二期[J];北京大学学报(自然科学版);2001年05期
2 任瑞娟,李洪建;中文WWW搜索引擎比较研究[J];大学图书馆学报;1999年05期
3 唐培和,杨新伦,刘浩;Google搜索引擎及其实现技术[J];广西工学院学报;2004年02期
4 周文荣;网上数据库检索[J];情报科学;2001年08期
5 严慧英;影响网络信息检索行为的主体因素[J];情报杂志;2004年04期
6 徐建华;网络搜索引擎原理、特性分析及未来发展趋势[J];图书情报工作;2000年08期
7 高琰,谷士文,谭立球,费耀平;基于Lucene的搜索引擎设计与实现[J];微机发展;2004年10期
8 林碧英;赵锐;陈良臣;;基于Lucene的全文检索引擎研究与应用[J];计算机技术与发展;2007年05期
9 张晓辉,邵华,常桂然;WWW上的信息发现与搜索引擎技术[J];小型微型计算机系统;1998年06期
10 李善平,尹奇韡,胡玉杰,郭鸣,付相君;本体论研究综述[J];计算机研究与发展;2004年07期
中国重要会议论文全文数据库 前2条
1 武洪萍;周国祥;;Web文本挖掘研究[A];计算机技术与应用进展·2007——全国第18届计算机技术与应用(CACIS)学术会议论文集[C];2007年
2 冯少卿;都云程;施水才;;基于模板的网页主题信息抽取[A];第三届全国信息检索与内容安全学术会议论文集[C];2007年
中国博士学位论文全文数据库 前2条
1 由丽萍;构建现代汉语框架语义知识库技术研究[D];上海师范大学;2006年
2 姜吉发;自由文本的信息抽取模式获取的研究[D];中国科学院研究生院(计算技术研究所);2004年
中国硕士学位论文全文数据库 前10条
1 贡正仙;基于网格的Web信息抽取技术的研究与实现[D];苏州大学;2006年
2 秦磊;基于XML的信息抽取和集成模型的研究与设计[D];南昌大学;2007年
3 侯震宇;主题型搜索引擎的研究与实现[D];中国科学院研究生院(文献情报中心);2003年
4 王斐;基于增量反馈和自适应机制的主题爬虫系统的设计与实现[D];南京理工大学;2005年
5 刘玮玮;搜索引擎中主题爬虫的研究与实现[D];南京理工大学;2006年
6 李跃进;基于Internet的信息抽取技术研究[D];大连理工大学;2005年
7 贺智平;Web信息自动抽取技术研究[D];西安电子科技大学;2006年
8 马腾;基于ontology的信息抽取系统的研究与实现[D];电子科技大学;2006年
9 苟全登;基于XML的半结构化Web信息提取的研究[D];电子科技大学;2006年
10 王敬普;基于包装器模型的文本信息抽取算法研究[D];湖南大学;2006年
【二级引证文献】
中国硕士学位论文全文数据库 前1条
1 王芳;基于FCA的产品信息提取和结构化显示方法[D];河南大学;2008年
【二级参考文献】
中国期刊全文数据库 前2条
1 张绍华,徐林昊,杨文柱,薛文玲,李天柱;基于样本实例的Web信息抽取[J];河北大学学报(自然科学版);2001年04期
2 朱明,王军,王俊普;基于多层模式的多记录网页信息抽取方法[J];计算机工程;2001年09期
【相似文献】
中国期刊全文数据库 前10条
1 朱会明;;Web页面中的Layer运用[J];科技信息;2011年18期
2 ;[J];;年期
3 ;[J];;年期
4 ;[J];;年期
5 ;[J];;年期
6 ;[J];;年期
7 ;[J];;年期
8 ;[J];;年期
9 ;[J];;年期
10 ;[J];;年期
中国重要会议论文全文数据库 前10条
1 徐云风;蒋文蓉;;Web页面信息抽取的分析与研究[A];IT服务促进企业信息化——第十一届中国Java技术及应用交流大会文集[C];2008年
2 胡飞;;一种Web页面的主题区域搜索方法[A];2008年计算机应用技术交流会论文集[C];2008年
3 郭岩;白硕;张凯;;网络日志规模分析和用户对Web的访问动机分析[A];NCIRCS2004第一届全国信息检索与内容安全学术会议论文集[C];2004年
4 刘治;刘新颖;戴丽思;王立红;汤彦红;;地震地质主页制作方法研究[A];1999年中国地球物理学会年刊——中国地球物理学会第十五届年会论文集[C];1999年
5 黄志坚;杨伟民;刘苏;毕洪山;;基于测试驱动开发过程的Web页面测试模型[A];第一届全国Web信息系统及其应用会议(WISA2004)论文集[C];2004年
6 武炜;;流媒体实时图像传输方法[A];2004中国水电控制设备论文集[C];2004年
7 周敏;陆向艳;王彬彬;潘琳林;张敏;农冬冬;陈晓江;;基于Web方式的智能题库系统设计与实现[A];广西计算机学会——2004年学术年会论文集[C];2004年
8 胡新保;唐立旭;王羽;;静态化Web数据库动态页面[A];全国计算机网络应用年会论文集(2001)[C];2001年
9 孙斌;;一种高性能的Web资源传输控制方法[A];第六届全国计算机应用联合学术会议论文集[C];2002年
10 张宇;刘挺;;残缺邮件与完整邮件分离技术的研究[A];全国网络与信息安全技术研讨会’2004论文集[C];2004年
中国重要报纸全文数据库 前10条
1 张万成;用VB编写Web页面提交程序[N];电脑报;2002年
2 广东 李锋;登录Web页面收信的好帮手——超级代理[N];电脑报;2001年
3 华少;匿名E-mail发送方法全程揭秘[N];江苏经济报;2002年
4 江苏 余杰;如何用好多个妹儿[N];中国电脑教育报;2001年
5 邹敏;Web软提速[N];中国计算机报;2001年
6 福建 陈旭波;摆脱电子邮件“挂号”的束缚[N];电脑报;2002年
7 双龙一剑;网上豪宅 一手打造[N];中国电脑教育报;2002年
8 胡仁昱;会计人如何进入专业网址[N];中国财经报;2000年
9 李广;ESI应对Web动态内容的挑战[N];计算机世界;2002年
10 王文林;结合C/S与B/S模式[N];中国计算机报;2002年
中国硕士学位论文全文数据库 前10条
1 吴圣敏;基于SMWP方法的数据呈现技术研究[D];福州大学;2005年
2 刘凡;Web页面跟踪系统的研究与实现[D];清华大学;2003年
3 马征;基于本体的Web页面分类挖掘[D];中南大学;2004年
4 王明燕;基于WEB页面的关键词与关键概念提取技术[D];北京工业大学;2003年
5 代学武;基于神经网络的用户建模和Web信息过滤研究[D];西南师范大学;2003年
6 沈向峰;适应多种数字化设备的因特网内容规范和转换工具研究[D];中国科学院研究生院(计算技术研究所);2001年
7 狄慧;基于Agent的Web信息抽取研究[D];大连理工大学;2004年
8 易高翔;Web文本挖掘研究与实现[D];武汉科技大学;2004年
9 韩久学;基于Linux的分布式智能邮件系统的研究与实现[D];大连海事大学;2004年
10 张建华;WWW安全机制的构建与实现[D];四川大学;2004年
中国知网广告投放
相关期刊
>科技信息
相关机构
>商丘师范学院计算机科学系...
相关作者
>朱会明
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62791813
  • 010-62985026