收藏本站
《小型微型计算机系统》 2001年09期
收藏 | 投稿 | 手机打开
二维码
手机客户端打开本文

基于多知识的Web网页信息抽取方法

朱明  黄云  蔡庆生  
【摘要】:从 Web网页中自动抽取所需要的信息内容 ,是互联网信息智能搜取的一个重要研究课题 .为有效解决网页信息抽取所需的信息描述知识获取问题 ,这里提出了一种基于多知识的 Web网页信息抽取方法 (简称 MKIE方法 ) .该方法将网页信息抽取所需的知识分为二类 .一类是描绘网页内容本身表示特点 ,以及识别各网页信息对象的确定模式知识 ;另一类则描述网页信息记录块 ,以及各网页信息对象的非确定模式知识 .MKIE方法根据前一类知识 ,动态分析获得后一类知识 ;并利用这两类知识 ,最终完成从信息内容类似但其表现形式各异的网页中 ,抽取出所需要的信息 .美大学教员论文网页信息抽取实验结果表明 ,MKIE方法具有较强的网页信息自动识别与抽取能力

【引证文献】
中国期刊全文数据库 前3条
1 朱明,王胜,周津;基于Web企业竞争对手情报自动搜集平台[J];微计算机应用;2004年01期
2 朱明,严捷丰,蔡庆生;基于主题的Web信息个性化服务[J];计算机应用;2002年12期
3 许建潮,侯锟;Web信息的自主抽取方法[J];计算机工程与应用;2005年14期
中国博士学位论文全文数据库 前2条
1 袁方;面向智能信息检索的Web挖掘关键技术研究[D];东北大学;2006年
2 周顺先;文本信息抽取模型及算法研究[D];湖南大学;2007年
中国硕士学位论文全文数据库 前10条
1 蔡国民;基于XML的个性化信息检索系统研究[D];中南大学;2007年
2 冯刚;基于J2EE的多语种元搜索引擎的研究与实现[D];电子科技大学;2006年
3 彭玮;灌区数据信息传输方法的研究与应用[D];西北农林科技大学;2004年
4 王琳琳;基于HTML Parser的Web信息提取技术[D];北京邮电大学;2007年
5 王家锋;分布式智能搜索引擎技术[D];北京工业大学;2003年
6 刘博;多用户在线可视化数据挖掘系统[D];河北大学;2006年
7 刘云中;基于隐马尔可夫模型的文本信息抽取算法研究[D];湖南大学;2004年
8 罗清磊;引入本体机制的Web智能信息Agent[D];广东工业大学;2003年
9 王敬普;基于包装器模型的文本信息抽取算法研究[D];湖南大学;2006年
10 吴雪军;面向信息抽取的命名实体识别与模板获取技术研究[D];东北大学;2005年
【同被引文献】
中国期刊全文数据库 前10条
1 丁丰,董娜,林碧琴,袁保宗;自然语言处理系统中自动分词的研究[J];北方交通大学学报;1999年06期
2 雷鸣,王建勇,赵江华,单松巍,陈葆珏;第三代搜索引擎与天网二期[J];北京大学学报(自然科学版);2001年05期
3 李蕾;周延泉;王菁华;;基于全信息的中文信息抽取系统及应用[J];北京邮电大学学报;2005年06期
4 曹娟,姜延,李鸿源,杨慎敏;高校科研管理信息系统的Web实现[J];东北电力学院学报;2001年01期
5 王红梅,朱洪秀,王凌;对中文搜索引擎未来发展的探讨[J];东北电力学院学报;2001年04期
6 李向阳,陆建江,张亚非;基于竞争分类的Web信息抽取[J];电子学报;2004年11期
7 周俊生;戴新宇;尹存燕;陈家骏;;基于层叠条件随机场模型的中文机构名自动识别[J];电子学报;2006年05期
8 林锦贤,钟春芳;基于Agent的Web网页自适应检索模型[J];福州大学学报(自然科学版);2000年03期
9 孙及园,林锦贤;对Web网页的查询及信息提取[J];福州大学学报(自然科学版);2000年03期
10 李建华,王晓龙;中文人名自动识别的一种有效方法[J];高技术通讯;2000年02期
中国重要会议论文全文数据库 前1条
1 徐小琴;章成志;;Web信息检索中相关词提示技术与评测[A];第三届学生计算语言学研讨会论文集[C];2006年
中国硕士学位论文全文数据库 前5条
1 李炎茗;元搜索引擎的现状研究与改进设计[D];华中师范大学;2002年
2 温泉;WAP页面转换的实现技术研究[D];河海大学;2004年
3 董树明;半结构化Web信息抽取技术及其应用研究[D];东南大学;2004年
4 唐明;面向移动计算环境的可扩展标记语言转换技术研究[D];国防科学技术大学;2004年
5 翟旭君;基于平行坐标的可视化数据挖掘技术研究[D];清华大学;2005年
【二级引证文献】
中国期刊全文数据库 前8条
1 李彦刚;魏海平;侯兴华;;基于HTMLParser的Web信息抽取系统的设计与实现[J];辽宁石油化工大学学报;2006年02期
2 刘鲁红,刘力强,胡亚军;信息抽取技术在数字图书馆中的应用研究[J];情报理论与实践;2005年03期
3 王宁;基于客户关系管理的潜在信息需求显化[J];情报杂志;2005年07期
4 谷秀岩,姜林枫 ,张子怡;基于用户浏览行为度量浏览兴趣的研究[J];信息技术与信息化;2005年04期
5 胡昌平;王宁;;基于客户关系管理的潜在信息需求的显化与互动式信息服务的推进[J];图书情报工作;2005年12期
6 夏敏捷;张慧档;;基于Web日志挖掘的个性化服务站点[J];微计算机应用;2006年01期
7 龙波;邓健爽;陈琼;;基于网页布局及关键词组的垂直搜索技术[J];现代计算机;2006年09期
8 徐娟;马自卫;;网络资源采集与学科导航系统的研究与实现[J];现代图书情报技术;2006年06期
中国重要会议论文全文数据库 前3条
1 张二梅;刘辰;杨正球;;基于HTMLParser自动生成测试用例的研究[A];2007北京地区高校研究生学术交流会通信与信息技术会议论文集(上册)[C];2008年
2 戴玉刚;;藏文网页采集技术研究[A];民族语言文字信息技术研究——第十一届全国民族语言文字信息学术研讨会论文集[C];2007年
3 张海雷;曹菲菲;陈文亮;任飞亮;王会珍;朱靖波;;基于多层次特征集成的中文实体指代识别[A];内容计算的研究与应用前沿——第九届全国计算语言学学术会议论文集[C];2007年
中国博士学位论文全文数据库 前2条
1 秦忠宝;基于混合知识表示的设计创新及知识获取研究[D];西北工业大学;2006年
2 杨志豪;面向生物医学领域的文本挖掘技术研究[D];大连理工大学;2008年
中国硕士学位论文全文数据库 前10条
1 张承明;基于Web的数据挖掘研究[D];山东科技大学;2003年
2 张敏;基于Web挖掘的个性化信息检索研究[D];山东科技大学;2004年
3 李凤慧;面向电子商务的Web数据挖掘的研究[D];山东科技大学;2004年
4 王铭军;基于互联网的模糊数据挖掘技术的研究与应用[D];中国地质大学(北京);2006年
5 杨长辉;基于XMLWeb Services的异构数据集成系统的研究和应用[D];重庆大学;2006年
6 吴建兵;基于GPRS的便携式灌区数据传输仪的研制[D];西北农林科技大学;2006年
7 朱海灵;情报研究中的知识集成及应用研究[D];南京理工大学;2006年
8 陈霄;基于支持向量机的中文组织机构名识别[D];上海交通大学;2007年
9 周登朋;搜索引擎搜索结果的聚类研究[D];上海交通大学;2007年
10 陈佳;基于XML的Web信息抽取技术的应用研究[D];武汉理工大学;2007年
【相似文献】
中国期刊全文数据库 前10条
1 欧阳松;汉字编码的PTEC模型和计算机辅助设计[J];计算机学报;1988年09期
2 刘正捷;徐素文;张涛;;一个分布式程序图示化分析工具的设计实现[J];计算机工程与应用;1992年08期
3 张永奎;从文本中提取信息[J];情报学报;1994年02期
4 刘挺,吴岩,王开铸;基于信息抽取和文本生成的自动文摘系统设计[J];情报学报;1997年S1期
5 朱靖波,姚天顺;中文信息自动抽取[J];东北大学学报(自然科学版);1998年01期
6 许学标,顾宁,施伯乐;半结构化数据模型及查询语言[J];计算机研究与发展;1998年10期
7 王宁,陈滢,俞本权,徐宏炳,王能斌;一个基于CORBA的异构数据源集成系统的设计[J];软件学报;1998年05期
8 王宁,徐宏炳,王能斌;基于带根连通有向图的对象集成模型及代数[J];软件学报;1998年12期
9 胡明沛;信息系统随业务增长——江永清点评中国企业信息管理系统建设[J];IT经理世界;1998年15期
10 李庆华,刘昊;用待确定的上下文无关文法分析半结构化数据[J];华中理工大学学报;1999年05期
中国重要会议论文全文数据库 前10条
1 张伟;潘红华;孙优贤;;生产过程中混杂控制系统的分析与建模[A];1999中国控制与决策学术年会论文集[C];1999年
2 钱跃良;刘开瑛;;农作物模板自动生成的技术研究[A];自然语言理解与机器翻译——全国第六届计算语言学联合学术会议论文集[C];2001年
3 房一飞;张冬茉;;基于boosting的文本分类在股市领域信息抽取系统中的应用[A];辉煌二十年——中国中文信息学会二十周年学术会议论文集[C];2001年
4 刘扬;俞士汶;;CCD构造模型及VACOL辅助软件的设计与实现[A];第一届学生计算语言学研讨会论文集[C];2002年
5 吴雪军;朱靖波;王会珍;叶娜;张宇新;;Co-Training的机器学习方法在中文机构名识别中的应用[A];语言计算与基于内容的文本处理——全国第七届计算语言学联合学术会议论文集[C];2003年
6 董强;郝长伶;董振东;;基于《知网》的中文语块抽取器[A];语言计算与基于内容的文本处理——全国第七届计算语言学联合学术会议论文集[C];2003年
7 江荻;;现代藏语谓语动词的识别与信息提取[A];Advances in Computation of Oriental Languages--Proceedings of the 20th International Conference on Computer Processing of Oriental Languages[C];2003年
8 谌志群;张国煊;;一个基于内容的Web信息抽取方法[A];Advances in Computation of Oriental Languages--Proceedings of the 20th International Conference on Computer Processing of Oriental Languages[C];2003年
9 周剑辉;苑春法;黄锦辉;李文捷;;金融领域内信息抽取规则的自动获取[A];Advances in Computation of Oriental Languages--Proceedings of the 20th International Conference on Computer Processing of Oriental Languages[C];2003年
10 叶娜;吴雪军;朱靖波;陈文亮;;基于相似计算的信息抽取模板自动获取方法[A];第二届全国学生计算语言学研讨会论文集[C];2004年
中国重要报纸全文数据库 前10条
1 马志彦;悄然而至的EIP[N];中国计算机报;2002年
2 谢立宏博士;企业的“黄金眼”数据挖掘决策支持[N];中国计算机报;2002年
3 董振东;到用户中去[N];中国计算机报;2003年
4 刘红岩、何军;利用数据挖掘技术获得商业智能[N];中国计算机报;2003年
5 清华大学 邢春晓 李蕾 周立柱;XML数据库另辟天地[N];计算机世界;2003年
6 江林强;CRM与期货客户关系管理[N];期货日报;2003年
7 本报记者 余戈;电脑为什么能战胜人脑[N];北京科技报;2004年
8 史小敏;前景广阔的信息抽取技术[N];解放军报;2004年
9 希安;微软试水信息检索[N];经济日报;2004年
10 彭芳;搜索也专业[N];中国计算机报;2004年
中国博士学位论文全文数据库 前10条
1 郑淑丽;Web信息集成系统及查询优化方法研究[D];合肥工业大学;2003年
2 王真星;基于本体的计算机支持协同学习关键技术研究[D];复旦大学;2003年
3 陈治平;智能搜索引擎理论与应用研究[D];湖南大学;2003年
4 陶春;半结构化数据集成系统中的查询处理研究[D];复旦大学;2004年
5 张凯;基于本体的Web信息集成若干关键技术研究[D];复旦大学;2004年
6 王建会;中文信息处理中若干关键技术的研究[D];复旦大学;2004年
7 周雪忠;文本挖掘在中医药中的若干应用研究[D];浙江大学;2004年
8 胡明;Web中文信息智能获取与分类研究[D];吉林大学;2005年
9 余传明;基于本体的语义信息系统研究[D];武汉大学;2005年
10 孙越恒;基于统计的NLP技术在中文信息检索中的应用研究[D];天津大学;2005年
中国硕士学位论文全文数据库 前10条
1 张绍华;基于实例的Web信息抽取[D];河北大学;2001年
2 翟蕾;Web文档分类及信息抽取的研究与开发[D];西北工业大学;2001年
3 蒋伟华;搜索引擎中的信息抽取技术研究[D];湖南大学;2001年
4 胡红霞;Web敏感页面发现技术研究[D];中国人民解放军信息工程大学;2002年
5 李由;一种半结构化信息组织技术的研究与实现[D];国防科学技术大学;2002年
6 曹军;汉语第三人称代词消解方法研究[D];湘潭大学;2002年
7 武刚;以XML为核心的WEB统一数据的初步研究[D];西南石油学院;2002年
8 张仕;XML数据管理系统的研究与实现[D];南京航空航天大学;2003年
9 陈丽;基于XML的知识集成中间件系统的研究与应用[D];南京航空航天大学;2003年
10 张艳丽;中文机构名称的自动识别[D];大连理工大学;2003年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62791813
  • 010-62985026