收藏本站
《中文信息学报》 2004年05期
收藏 | 投稿 | 手机打开
二维码
手机客户端打开本文

基于统计的网页正文信息抽取方法的研究

孙承杰  关毅  
【摘要】:为了把自然语言处理技术有效的运用到网页文档中 ,本文提出了一种依靠统计信息 ,从中文新闻类网页中抽取正文内容的方法。该方法先根据网页中的HTML标记把网页表示成一棵树 ,然后利用树中每个结点包含的中文字符数从中选择包含正文信息的结点。该方法克服了传统的网页内容抽取方法需要针对不同的数据源构造不同的包装器的缺点 ,具有简单、准确的特点 ,试验表明该方法的抽取准确率可以达到 95 %以上。采用该方法实现的网页文本抽取工具目前为一个面向旅游领域的问答系统提供语料支持 ,很好的满足了问答系统的需求

【引证文献】
中国期刊全文数据库 前6条
1 黄文蓓;杨静;顾君忠;;基于分块的网页正文信息提取算法研究[J];计算机应用;2007年S1期
2 赵欣欣;索红光;刘玉树;;基于标记窗的网页正文信息提取方法[J];计算机应用研究;2007年03期
3 袁毓林;用动词的论元结构跟事件模板相匹配——一种由动词驱动的信息抽取方法[J];中文信息学报;2005年05期
4 胡国平;张巍;王仁华;;基于双层决策的新闻网页正文精确抽取[J];中文信息学报;2006年06期
5 何婷婷;朱薏;张勇;任函;;基于词语属性的计算机辅助获取流行词语研究[J];中文信息学报;2006年06期
6 王艳;张帆;;基于Web挖掘技术的信息检索系统设计与实现[J];情报学报;2007年03期
中国重要会议论文全文数据库 前2条
1 时达明;林鸿飞;杨志豪;;基于网页框架和规则的网页噪音去除方法[A];第三届学生计算语言学研讨会论文集[C];2006年
2 蒲宇达;关毅;王强;;基于数据挖掘思想的网页正文抽取方法的研究[A];第三届学生计算语言学研讨会论文集[C];2006年
中国硕士学位论文全文数据库 前10条
1 谢光华;中文网页自动分类的研究及其应用[D];大连理工大学;2007年
2 吴新涛;基于向量空间模型的网页信息过滤方法研究[D];大连理工大学;2008年
3 时达明;Blog热点话题发现及其作者声誉度研究[D];大连理工大学;2007年
4 谢德辉;面向刑侦网页的信息抽取与主题爬虫应用研究[D];大连理工大学;2007年
5 卢睿;基于XML的Web信息抽取研究[D];大连海事大学;2005年
6 刘艺琴;基于本体的Web非规范知识处理中信息抽取技术研究[D];昆明理工大学;2005年
7 魏常丽;搜索引擎结果的再检索[D];内蒙古大学;2005年
8 石宇;基于XML的Web信息抽取与集成技术的研究[D];大连海事大学;2006年
9 朱薏;流行词语计算机获取模型研究[D];华中师范大学;2006年
10 苟全登;基于XML的半结构化Web信息提取的研究[D];电子科技大学;2006年
【参考文献】
中国期刊全文数据库 前1条
1 张绍华,徐林昊,杨文柱,薛文玲,李天柱;基于样本实例的Web信息抽取[J];河北大学学报(自然科学版);2001年04期
【共引文献】
中国期刊全文数据库 前9条
1 陈磊,冯玉珉;一种基于网页自动分类的分类查询搜索引擎[J];电脑与信息技术;2004年06期
2 李石君;于俊清;欧伟杰;;基于HTML模式代数的Web信息提取方法[J];计算机研究与发展;2006年09期
3 王茹,宋瀚涛,陆玉昌;网页数据自动抽取系统[J];计算机工程与应用;2004年19期
4 张春元;康耀红;;基于示例的Web信息自动获取系统的设计与实现[J];计算机应用;2005年S1期
5 陈再良;凌力;周强;;dPageRank——一种改进的分布式PageRank算法[J];计算机应用;2006年01期
6 胡国平;张巍;王仁华;;基于双层决策的新闻网页正文精确抽取[J];中文信息学报;2006年06期
7 王艳;张帆;;基于Web挖掘技术的信息检索系统设计与实现[J];情报学报;2007年03期
8 邵良杉;那宝贵;;基于Web挖掘的虚拟企业合作伙伴选择决策支持系统研究[J];计算机系统应用;2006年10期
9 张丽,张福顺;虚拟企业伙伴搜索系统的设计[J];信息与控制;2004年03期
中国重要会议论文全文数据库 前2条
1 李连霞;马军;陈竹敏;;基于多特征的网页内容提取研究[A];第三届和谐人机环境联合学术会议(HHME2007)论文集[C];2007年
2 蒲宇达;关毅;王强;;基于数据挖掘思想的网页正文抽取方法的研究[A];第三届学生计算语言学研讨会论文集[C];2006年
中国博士学位论文全文数据库 前5条
1 胡燕;基于Web信息抽取的专业知识获取方法研究[D];武汉理工大学;2007年
2 傅魁;基于Web的本体学习研究[D];武汉理工大学;2007年
3 王树梅;信息检索相关技术研究[D];南京理工大学;2007年
4 黄茂军;地理本体的形式化表达机制及其在地图服务中的应用研究[D];武汉大学;2005年
5 何丽;基于Web挖掘的决策支持系统模型研究[D];天津大学;2005年
中国硕士学位论文全文数据库 前10条
1 吴新涛;基于向量空间模型的网页信息过滤方法研究[D];大连理工大学;2008年
2 谢德辉;面向刑侦网页的信息抽取与主题爬虫应用研究[D];大连理工大学;2007年
3 邹腊梅;基于隐马尔可夫模型的Web文本挖掘技术研究[D];南华大学;2007年
4 秦磊;基于XML的信息抽取和集成模型的研究与设计[D];南昌大学;2007年
5 王庆涛;基于本体的Web信息采集研究[D];中南大学;2007年
6 丛艳;自动文本摘要方法的研究及应用[D];华北电力大学(北京);2004年
7 马安香;基于分类语义的Web信息抽取机制的研究与实现[D];东北大学;2005年
8 卢睿;基于XML的Web信息抽取研究[D];大连海事大学;2005年
9 沈建良;基于本体论的个性化信息搜索系统研究[D];哈尔滨工程大学;2005年
10 吴爱珍;HTML表格数据抽取与集成[D];武汉大学;2004年
【同被引文献】
中国期刊全文数据库 前10条
1 陈桂林,王永成;Internet网络信息自动摘要的研究[J];高技术通讯;1999年02期
2 赵欣欣;索红光;刘玉树;;基于标记窗的网页正文信息提取方法[J];计算机应用研究;2007年03期
3 陆玉昌,鲁明羽,李凡,周立柱;向量空间法中单词权重函数的分析和构造[J];计算机研究与发展;2002年10期
4 李振星,徐泽平,唐卫清,唐荣锡;全二分最大匹配快速分词算法[J];计算机工程与应用;2002年11期
5 刘迁;贾惠波;;中文信息处理中自动分词技术的研究与展望[J];计算机工程与应用;2006年03期
6 韩客松,王永成,陈桂林;汉语语言的无词典分词模型系统[J];计算机应用研究;1999年10期
7 庞剑锋,卜东波,白硕;基于向量空间模型的文本自动分类系统的研究与实现[J];计算机应用研究;2001年09期
8 杨建林,张国梁;基于词链的自动分词方法[J];情报理论与实践;2000年02期
9 林建;张帆;;网络不良信息过滤研究[J];情报理论与实践;2007年04期
10 张茂元,卢正鼎,邹春燕;一种基于语境的中文分词方法研究[J];小型微型计算机系统;2005年01期
中国重要会议论文全文数据库 前5条
1 邹纲;刘洋;刘群;孟遥;于浩;西野文人;亢世勇;;面向Internet的中文新词语检测[A];2004年辞书与数字化研讨会论文集[C];2004年
2 张普;;关于控制论与动态语言知识更新的思考[A];自然语言理解与机器翻译——全国第六届计算语言学联合学术会议论文集[C];2001年
3 张普;;基于DCC的流行语动态跟踪与辅助发现研究[A];语言计算与基于内容的文本处理——全国第七届计算语言学联合学术会议论文集[C];2003年
4 郑泽之;王强军;张普;;流通度—字词使用情况测定的新方法[A];语言计算与基于内容的文本处理——全国第七届计算语言学联合学术会议论文集[C];2003年
5 史中琦;张普;;基于DCC动态流通语料库的流行语类型分析[A];第三届全国语言文字应用学术研讨会论文集[C];2004年
中国博士学位论文全文数据库 前2条
1 陈定权;自动主题搜索的应用研究[D];中国科学院研究生院(文献情报中心);2003年
2 聂培尧;基于XML的半结构数据管理及数据集成问题研究[D];西北工业大学;2002年
中国硕士学位论文全文数据库 前8条
1 董静;中文网页形式自动分类[D];大连理工大学;2006年
2 杨宇航;基于内容与链接分析的重要Blog信息源发现[D];哈尔滨工业大学;2006年
3 韦燕;blog在学校教育知识管理中的应用研究[D];东北师范大学;2007年
4 狄慧;基于Agent的Web信息抽取研究[D];大连理工大学;2004年
5 李跃进;基于Internet的信息抽取技术研究[D];大连理工大学;2005年
6 杨文柱;基于领域知识和信息抽取的个性化Web查询系统[D];河北大学;2002年
7 陈少飞;Web信息抽取规则的优化及规则的XQuery表达[D];河北大学;2003年
8 邓丽;面向主题的XML网页的模式和数据抽取[D];华侨大学;2004年
【二级引证文献】
中国期刊全文数据库 前1条
1 谌志群;张国煊;;文本挖掘与中文文本挖掘模型研究[J];情报科学;2007年07期
中国重要会议论文全文数据库 前3条
1 冯少卿;都云程;施水才;;基于模板的网页主题信息抽取[A];第三届全国信息检索与内容安全学术会议论文集[C];2007年
2 龚海军;何婷婷;瞿国忠;张勇;胡文敏;;热点事件发现[A];内容计算的研究与应用前沿——第九届全国计算语言学学术会议论文集[C];2007年
3 何婷婷;龚海军;胡文敏;瞿国忠;张勇;;热点事件发现(英文)[A];中国计算技术与语言问题研究——第七届中文信息处理国际会议论文集[C];2007年
中国硕士学位论文全文数据库 前6条
1 金晓鸥;互联网舆情信息获取与分析研究[D];上海交通大学;2008年
2 王婷;面向授权管理的动态网页资源描述与搜集技术研究[D];解放军信息工程大学;2007年
3 谢光华;中文网页自动分类的研究及其应用[D];大连理工大学;2007年
4 黄文蓓;基于网页分割和摘要的小屏幕设备网页自适应技术研究与实现[D];华东师范大学;2008年
5 谢德辉;面向刑侦网页的信息抽取与主题爬虫应用研究[D];大连理工大学;2007年
6 陈龙;基于WEB信息抽取的企业竞争情报系统研究[D];合肥工业大学;2007年
【相似文献】
中国期刊全文数据库 前10条
1 田子;介绍几种用HTML制作网页的软件[J];大学图书馆学报;1996年03期
2 ;爱克发WWW.Chromapress.com正式启用[J];网上出版;1996年11期
3 朱义军,马范援,白英彩;基于客户搜索的自适应代理机制设计[J];通信学报;1997年12期
4 晓道;网页介绍(一)[J];电脑;1997年07期
5 晓道;网页介绍(二)[J];电脑;1997年08期
6 晓道;Internet Explorer 使用集锦[J];电脑;1997年08期
7 ;互联网络调查揭晓[J];电脑;1997年08期
8 海燕;微软最新浏览器IE4.0[J];电脑;1997年09期
9 晓道;网页介绍(三)[J];电脑;1997年09期
10 ;编者寄语[J];电脑;1997年10期
中国重要会议论文全文数据库 前10条
1 李三宝;;神游化外的诗仙李白[A];中国李白研究(1998-1999年集)——李白与天姥国际会议论文集[C];1999年
2 薛成;黄韧;邹移海;杨世华;;实验动物信息网络网页远程管理系统的设计[A];中国实验动物学会第五届学术年会论文汇编[C];2000年
3 李德成;;从搜索埋设行为谈反不正当竞争法的适用与完善[A];中国律师2000年大会论文精选(下卷)[C];2000年
4 赵丽丽;;用PHP开发动态数据库网页[A];过程系统工程2001年会论文集[C];2001年
5 张进;;气象信息服务网站开发与实现[A];数据库技术在气象领域的应用学术会议论文集[C];2001年
6 陈少克;;用FrontPage开发MCAI课件[A];全国第十四届计算机科学及其在仪器仪表中的应用学术交流会论文集[C];2001年
7 高行宇;姜建国;;黑客攻击检测技术[A];中国工程物理研究院科技年报[C];2001年
8 高行宇;姜建国;;黑客攻击检测技术[A];中国工程物理研究院科技年报(2001)[C];2001年
9 郁健飞;;档案馆网页建设初探[A];江苏省档案现代化管理与档案信息化建设学术研讨会交流材料[C];2002年
10 苏伟斌;周惠民;顾大权;;网页代码漏洞剖析[A];网络安全技术的开发应用学术会议论文集[C];2002年
中国重要报纸全文数据库 前10条
1 特约记者 张雪源;人口普查网页开通[N];北京科技报;2000年
2 阿捷;宣传自己的主页[N];北京科技报;2000年
3 金振昆;思想政治教育必须主动进入网络[N];中国包装报;2000年
4 一凡;面对现实和未来的必然选择[N];中国船舶报;2000年
5 魏晶晶;网络给健康教育出难题[N];中国妇女报;2000年
6 吴东林;电子商务中商标侵权行为及对策[N];中国工商报;2000年
7 邓晓男;马云:敲开财富之门[N];中国工商报;2000年
8 ;电视上网前景看好[N];财经时报;2000年
9 ;B2B到P2P路有多远?[N];中国旅游报;2000年
10 彭伟;传统旅行社建网的误区[N];中国旅游报;2000年
中国博士学位论文全文数据库 前5条
1 陈治平;智能搜索引擎理论与应用研究[D];湖南大学;2003年
2 朱征宇;Web资源组织与服务性能研究[D];重庆大学;2003年
3 刘华;基于关键短语的文本内容标引研究[D];北京语言大学;2005年
4 吴瑞;模糊和粗糙环境下的网络用户浏览模式研究[D];天津大学;2006年
5 王德吉;复杂环境下自适应智能决策支持系统研究[D];中国科学技术大学;2007年
中国硕士学位论文全文数据库 前10条
1 王立立;基于Internet的电子海图自动改正方法的研究[D];大连海事大学;2000年
2 唐益军;网络营销中的网页策略[D];西南财经大学;2000年
3 王宁;因特网上版保护问题的研究[D];对外经济贸易大学;2001年
4 薛鹏军;基于知识库的中文网络检索工具——经济信息智能搜索引擎研究[D];南京农业大学;2001年
5 张勉;基于数据库的多媒体资源库管理平台的研究[D];山东师范大学;2003年
6 张斌;反不正当竞争法在网络经济中的适用及其完善[D];郑州大学;2003年
7 寻杨;中小学教育网站的分析与研究[D];华东师范大学;2001年
8 陈鑫卿;搜索引擎技术中的Web结构挖掘算法研究[D];山西大学;2003年
9 赖莉飞;数据采集器运用于中学物理实验的研究[D];华南师范大学;2004年
10 董志勇;Web信息检索中基于超链接的网页评估算法的研究[D];河海大学;2004年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62791813
  • 010-62985026