收藏本站
《计算机工程》 2005年20期
收藏 | 投稿 | 手机打开
二维码
手机客户端打开本文

基于网页结构树的Web信息抽取方法

陈琼  苏文健  
【摘要】:提出了网页结构树提取算法及基于网页结构树的Web信息抽取方法。抽取信息时,在网页结构树中定位模式库中的待抽取信息,用模式库中的待抽取信息和网页结构树的叶结点对应的网页信息进行匹配。因而对网页信息的抽取,可以转化为对网页结构树的树叶结点信息的查找。实验证明,该方法具有较强的网页信息抽取能力。

【引证文献】
中国博士学位论文全文数据库 前1条
1 胡燕;基于Web信息抽取的专业知识获取方法研究[D];武汉理工大学;2007年
中国硕士学位论文全文数据库 前1条
1 刘玲;一种通用Web信息抽取系统的研究与实现[D];西南石油大学;2007年
【共引文献】
中国期刊全文数据库 前5条
1 刘杰;束博;;一种高效的HTML/XHTML至WML的转换方法[J];北京工商大学学报(自然科学版);2006年06期
2 蔡虹,叶水生;基于KPS的Web信息抽取[J];计算机与现代化;2005年06期
3 张清军,朱才连,侯林山;信息抽取技术在LBS中的应用[J];四川大学学报(工程科学版);2005年01期
4 龙波;邓健爽;陈琼;;基于网页布局及关键词组的垂直搜索技术[J];现代计算机;2006年09期
5 黄崑,赖茂生;Web信息检索技术及研究进展[J];现代图书情报技术;2004年05期
中国博士学位论文全文数据库 前1条
1 张素香;信息抽取中关键技术的研究[D];北京邮电大学;2007年
中国硕士学位论文全文数据库 前4条
1 岳国伟;基于本体的Web页面结构化信息抽取[D];山东科技大学;2007年
2 王忠华;WEB数据挖掘技术的研究及在手机设计中的应用[D];华东师范大学;2007年
3 钱君;基于KPS的Web信息抽取MAS模型的研究与设计[D];南昌大学;2007年
4 轩艳艳;基于XML的Web信息抽取研究与实现[D];武汉理工大学;2008年
【同被引文献】
中国期刊全文数据库 前10条
1 王茹,宋瀚涛,陆玉昌;基于树自动机的网页数据抽取[J];北京理工大学学报;2004年09期
2 李蕾;周延泉;王菁华;;基于全信息的中文信息抽取系统及应用[J];北京邮电大学学报;2005年06期
3 丁克良;欧吉坤;赵春梅;;正交最小二乘曲线拟合法[J];测绘科学;2007年03期
4 陈磊,冯玉珉;一种基于网页自动分类的分类查询搜索引擎[J];电脑与信息技术;2004年06期
5 刘毅;;网络言论传播与民众舆情表达[J];电影评介;2006年14期
6 李向阳,陆建江,张亚非;基于竞争分类的Web信息抽取[J];电子学报;2004年11期
7 李彦刚;魏海平;侯兴华;;基于HTMLParser的Web信息抽取系统的设计与实现[J];辽宁石油化工大学学报;2006年02期
8 张仰森,徐波,曹元大;自然语言处理中的语言模型及其比较研究[J];广西师范大学学报(自然科学版);2003年01期
9 黄发良,钟智;用于分类的支持向量机[J];广西师范学院学报(自然科学版);2004年03期
10 张绍华,徐林昊,杨文柱,薛文玲,李天柱;基于样本实例的Web信息抽取[J];河北大学学报(自然科学版);2001年04期
中国硕士学位论文全文数据库 前10条
1 李威;基于向量空间的文本自动分类系统的研究和实现[D];兰州理工大学;2005年
2 叶娜;面向信息抽取的文本预处理和规则自动学习技术研究[D];东北大学;2005年
3 邹娟;面向中文文本的特征值提取[D];湘潭大学;2005年
4 宋艳娟;基于XML的HTML和PDF信息抽取技术的研究[D];福州大学;2006年
5 贺智平;Web信息自动抽取技术研究[D];西安电子科技大学;2006年
6 明廷波;基于神经网络的Web信息抽取系统的研究与实现[D];电子科技大学;2006年
7 袁宇丽;基于HTML网页的Web信息提取研究[D];电子科技大学;2006年
8 赵敏涯;基于主题的新闻搜索引擎的研究与实现[D];扬州大学;2006年
9 刘保位;中国共产党社会舆情机制研究[D];中共中央党校;2006年
10 王骏;基于垂直搜索引擎技术的房源信息分析系统的设计与实现[D];苏州大学;2006年
【相似文献】
中国期刊全文数据库 前10条
1 王全剑;李芳;;基于Wikipedia的人名简历信息抽取[J];计算机应用与软件;2011年07期
2 魏晶晶;于然;廖祥文;;基于分隔符的中文论坛信息抽取[J];福建电脑;2011年06期
3 孙全红;张贞贞;;基于树结构的Web表格信息抽取方法[J];华北水利水电学院学报;2011年03期
4 钱程;阳小兰;;HTML到XML转换研究[J];计算机与现代化;2011年08期
5 王利鑫;耿焕同;孙凯;张茜;;基于自然语言处理的文本泄密自动检测技术[J];计算机工程与设计;2011年08期
6 梁吉光;田俊华;熊玲;;基于二阶HMM的信息抽取研究[J];情报杂志;2011年07期
7 孙中友;李培峰;朱巧明;;事件信息抽取中的数据预处理方法研究[J];计算机应用与软件;2011年08期
8 赵小明;朱洪波;陈黎;王亚强;秦湘清;于中华;;基于多分类器的金融领域多元关系信息抽取算法[J];计算机工程与设计;2011年07期
9 牟思;;基于垂直搜索引擎的学校网站的研究与建设[J];中国教育技术装备;2011年21期
10 卫佳君;宋继华;;自动文摘的方法研究[J];计算机技术与发展;2011年08期
中国重要会议论文全文数据库 前10条
1 吴雪军;朱靖波;王会珍;叶娜;张宇新;;Co-Training的机器学习方法在中文机构名识别中的应用[A];语言计算与基于内容的文本处理——全国第七届计算语言学联合学术会议论文集[C];2003年
2 姜吉发;王树西;;一种自举的二元关系获取方法[A];NCIRCS2004第一届全国信息检索与内容安全学术会议论文集[C];2004年
3 徐林昊;杨文柱;陈少飞;郝亚南;李天柱;;基于XPath的Web信息抽取[A];第十九届全国数据库学术会议论文集(研究报告篇)[C];2002年
4 乔春庚;肖诗斌;孙丽华;施水才;;规则与统计相结合的案件名称识别[A];第三届学生计算语言学研讨会论文集[C];2006年
5 周国栋;孔芳;朱巧明;;指代消解:国内外研究现状及趋势[A];内容计算的研究与应用前沿——第九届全国计算语言学学术会议论文集[C];2007年
6 孟红;钟华;;基于htmlparser的搜索引擎信息抽取系统设计与实现[A];第六届全国信息检索学术会议论文集[C];2010年
7 丁晟春;刘逶迤;熊霞;梅健;;基于领域本体和语块分析的信息抽取的研究与实现[A];第四届全国信息检索与内容安全学术会议论文集(上)[C];2008年
8 郭宏蕾;郭志立;;基于模型组合训练机制的特定领域名词性实体识别[A];全国第八届计算语言学联合学术会议(JSCL-2005)论文集[C];2005年
9 戴玉刚;;藏文网页采集技术研究[A];民族语言文字信息技术研究——第十一届全国民族语言文字信息学术研讨会论文集[C];2007年
10 王文生;谢能付;;基于Web的农业信息自动抽取方法研究[A];中国农业信息科技创新与学科发展大会论文汇编[C];2007年
中国重要报纸全文数据库 前3条
1 上海交通大学APEX数据和知识管理实验室 王昊奋俞勇;语义Web推动下一代搜索[N];计算机世界;2007年
2 希安;微软试水信息检索[N];经济日报;2004年
3 ;XML数据库产品分类[N];计算机世界;2003年
中国博士学位论文全文数据库 前10条
1 刘亚清;开放式环境中的本体演化及其在信息抽取的应用研究[D];大连海事大学;2011年
2 刘娜;文本自动摘要和信息抽取方法及其应用研究[D];大连海事大学;2012年
3 李传席;基于本体的自适应Web信息抽取方法研究[D];中国科学技术大学;2012年
4 张奇;信息抽取中实体关系识别研究[D];中国科学技术大学;2010年
5 胡国平;基于超大规模问答对库和语音界面的非受限领域自动问答系统研究[D];中国科学技术大学;2007年
6 钱伟中;基于判别式模型的蛋白质互作用文本挖掘技术研究[D];电子科技大学;2011年
7 张乃洲;实体搜索爬虫和信息抽取研究[D];武汉大学;2011年
8 滕伟;面向Web信息集成的Web信息抽取中若干关键问题的研究[D];上海交通大学;2007年
9 王菁华;文本中知识的获取[D];北京邮电大学;2008年
10 黄健斌;基于条件概率图模型的Deep Web数据抽取与集成研究[D];西安电子科技大学;2007年
中国硕士学位论文全文数据库 前10条
1 金璐钰;基于框架的事件抽取关键技术研究[D];苏州大学;2010年
2 陈兰;基于ontology的信息抽取系统的研究与实现[D];电子科技大学;2004年
3 孟令谦;基于ontology的中文信息抽取系统的研究与实现[D];电子科技大学;2004年
4 廉成洋;基于树结构的Web信息抽取技术研究[D];南京航空航天大学;2010年
5 田宇;基于XML的WEB信息抽取系统研究与实现[D];内蒙古大学;2011年
6 杨选选;基于概念图和语义角色的多领域信息抽取系统研究[D];西北大学;2010年
7 刘艺琴;基于本体的Web非规范知识处理中信息抽取技术研究[D];昆明理工大学;2005年
8 雷佩莹;基于Web的新闻信息抽取系统设计与实现[D];西北大学;2008年
9 陈亮华;基于网络爬虫的基金信息抽取与分析平台[D];华南理工大学;2010年
10 杨红超;基于HMM和BP网络混合模型的web文本信息抽取研究[D];南华大学;2011年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62791813
  • 010-62985026