收藏本站
《南京大学学报(自然科学版)》 2011年04期
收藏 | 投稿 | 手机打开
二维码
手机客户端打开本文

基于维基语义的多文档文摘研究

龚书  瞿有利  田盛丰  
【摘要】:多文档文摘作为自然语言处理领域的重要技术之一,能从不同角度辅助用户实现高效的信息获取.由于文档集合内的内容往往来自不同的信息源,文本之间通常存在丰富而复杂的语义关系.常用的基于词的文档表示法,难以为文摘的语义分析过程提供充足而准确的数据信息.为此,我们提出使用维基百科——当今世界最大的在线概念语料库——为多文档文摘的提取提供语义支持.一方面,我们通过提取文档中的维基概念,生成准确一致的句子表示形式.另一方面,在计算句子特征时,我们利用维基词条的首段指导机器文摘的提取.我们首先通过计算概念在维基中的全局相关性和当前文档集内的局部相关性,获取概念的权重.然后在维基概念表示的基础上,为文档中的句子提取多种基于维基的特征,并最后用于文摘生成.在实验中,我们依次用各个维基特征独立生成文摘,并使用ROUGE(Recall-Oriented Understudy for Gisting Evaluation,面向召回率的要点评估)指标评价文摘质量.通过比较,实验验证了维基词条首段能较好的提升文摘质量.
【作者单位】北京交通大学计算机与信息技术学院;
【关键词】自动文摘 语义分析 概念表示 维基百科
【基金】:教育部科学技术研究重点项目(108126) 国家自然科学基金(10871019/a0107)
【分类号】:TP391.1
【正文快照】:
互联网和搜索引擎的相继出现,极大的推动了信息化的进程.我们飞快地从持续了20多世纪的信息匮乏年代,跨入了信息爆炸的21世纪.然而信息消费的速度成为了实现信息高速流通的主要瓶颈.当今网络搜索的速度基本以毫秒(ms)为单位,一次搜索能在几百ms内返回成百上千条搜索结果.以人

【引证文献】
中国期刊全文数据库 前2条
1 高阳;;中国数据挖掘研究进展[J];南京大学学报(自然科学版);2011年04期
2 邓箴;包宏;;基于词汇链的多文档自动文摘研究[J];计算机与应用化学;2012年11期
中国博士学位论文全文数据库 前1条
1 刘娜;文本自动摘要和信息抽取方法及其应用研究[D];大连海事大学;2012年
【同被引文献】
中国期刊全文数据库 前10条
1 张小平;周雪忠;黄厚宽;冯奇;陈世波;焦宏官;;一种改进的LDA主题模型[J];北京交通大学学报;2010年02期
2 李蕾;周延泉;王菁华;;基于全信息的中文信息抽取系统及应用[J];北京邮电大学学报;2005年06期
3 王娜;李霞;;基于监督信息特性的主动半监督谱聚类算法[J];电子学报;2010年01期
4 孔万增;孙志海;杨灿;戴国骏;孙昌思核;;基于本征间隙与正交特征向量的自动谱聚类[J];电子学报;2010年08期
5 钱鹏江;王士同;邓赵红;徐华;;基于最小包含球的大数据集快速谱聚类算法[J];电子学报;2010年09期
6 陈桂林,王永成;Internet网络信息自动摘要的研究[J];高技术通讯;1999年02期
7 张姝;赵铁军;郑德权;杨沐昀;;基于浅层分析的多文档自动文摘技术[J];哈尔滨工业大学学报;2007年07期
8 刘美玲;赵铁军;郑德权;于摇洋;;面向TDT的动态多文档文摘研究[J];哈尔滨工业大学学报;2010年11期
9 李蕾,钟义信,郭祥昊;面向特定领域的理解型中文自动文摘系统[J];计算机研究与发展;2000年04期
10 秦兵;刘挺;陈尚林;李生;;多文档文摘中句子优化选择方法研究[J];计算机研究与发展;2006年06期
中国硕士学位论文全文数据库 前1条
1 刘海鹏;面向手机短信的命名实体识别研究[D];北京邮电大学;2009年
【二级引证文献】
中国期刊全文数据库 前6条
1 李健森;白万民;;一种改进的距离度量的聚类算法[J];电子设计工程;2012年22期
2 王海荣;;数据挖掘在学生成绩分析中的应用[J];电子设计工程;2013年04期
3 王海荣;;数据挖掘技术在教学管理中的应用研究[J];电子设计工程;2013年03期
4 吴英杰;王一蕾;廖尚斌;王晓东;;面向事务型数据隐私保护的p-剖分l-多样化算法[J];南京大学学报(自然科学版);2011年05期
5 汤克明;戴彩艳;陈崚;;一种基于滑动窗口的不确定数据流Top-K查询算法[J];南京大学学报(自然科学版);2012年03期
6 赵成兵;李天瑞;王仲刚;高子喆;;基于MapReduce的高铁振动数据预处理[J];南京大学学报(自然科学版);2012年04期
中国博士学位论文全文数据库 前1条
1 王玮;基于概念格的关联规则挖掘及变化模式研究[D];山东大学;2012年
中国硕士学位论文全文数据库 前1条
1 邓广彪;关联挖掘及其改进技术在学生评优系统中的应用[D];广西大学;2012年
【相似文献】
中国期刊全文数据库 前10条
1 董建设;任丽;周燕玲;;中文自动文摘在搜索引擎中的应用[J];情报科学;2006年02期
2 郭俊文;中文科技文献自动文摘系统的研究[J];情报探索;1995年04期
3 黄河笑,郭俊文;中文科技文献自动文摘系统的研究[J];现代情报;1996年03期
4 高小云,程慕胜;基于英文文本的自动文摘:技术与展望[J];清华大学教育研究;2002年S1期
5 李小滨,徐越;自动文摘系统EAAS[J];软件学报;1991年04期
6 郭燕慧,钟义信,马志勇,姚均勇;自动文摘综述[J];情报学报;2002年05期
7 王建波,杜春玲,王开铸;基于篇章理解的自动文摘研究[J];中文信息学报;1995年03期
8 袁占亭,张爱民,张秋余;基于概念的Web信息检索[J];计算机工程与应用;2003年36期
9 杨建林;自动文摘的逻辑解释[J];情报理论与实践;2002年02期
10 郭庆琳,樊孝忠,柳长安;文本聚类在自动文摘中的应用研究[J];计算机应用;2005年05期
中国重要会议论文全文数据库 前10条
1 王红玲;黄超超;张明慧;周国栋;;面向冗余度控制的中文多文档自动文摘[A];中国计算语言学研究前沿进展(2009-2011)[C];2011年
2 万敏;罗振声;郭玉箐;;自动文摘系统中的意义段划分问题研究[A];自然语言理解与机器翻译——全国第六届计算语言学联合学术会议论文集[C];2001年
3 陈银科;;非陈述句的语义分析[A];1998年逻辑研究专辑[C];1998年
4 李成城;;基于修辞结构理论的自动文摘研究[A];民族语言文字信息技术研究——第十一届全国民族语言文字信息学术研讨会论文集[C];2007年
5 潘新玲;;我的地盘——表总括的“都”的语义分析及其左邻右舍的限制[A];2007年福建省辞书学会第18届年会论文提要集[C];2007年
6 贾君枝;刘焘;李景峰;;基于Web保险信息的语义分析初探[A];全国第八届计算语言学联合学术会议(JSCL-2005)论文集[C];2005年
7 王美娟;;矛盾修辞法的语言学研究[A];福建省外国语文学会2009年年会暨学术研讨会论文集[C];2009年
8 王萌;何婷婷;王晓荣;;基于hownet概念获取的中文自动文摘系统[A];第二届全国学生计算语言学研讨会论文集[C];2004年
9 桂卓民;何婷婷;陈劲光;李芳;;一种面向查询的多文档自动文摘系统实现方法[A];中国计算机语言学研究前沿进展(2007-2009)[C];2009年
10 王莹;刘杨;;维基百科的文本聚类方法分析[A];2009年研究生学术交流会通信与信息技术论文集[C];2009年
中国重要报纸全文数据库 前10条
1 迟晓春 译;第一生命联合IBM 共同研发语义分析解决方案[N];中国保险报;2010年
2 樊洪业;科学精神的历史线索与语义分析[N];大众科技报;2002年
3 刘仁;“语义分析”升级专利机器翻译[N];中国知识产权报;2008年
4 樊洪业;科学精神的历史线索与语义分析[N];大众科技报;2002年
5 樊洪业;科学精神的历史线索与语义分析[N];中华读书报;2001年
6 贾宝珍;中小企业缘何短寿[N];中国企业报;2004年
7 ;SurfControl: 强劲的反垃圾邮件引擎[N];计算机世界;2006年
8 陆元婕;聪明的搜索引擎[N];中国计算机报;2001年
9 海量智能计算技术研究中心 霍刚;新兴技术为互联网加速[N];计算机世界;2007年
10 SurfControl 美讯智 孟霞;防垃圾邮件网关事半功倍[N];中国计算机报;2006年
中国博士学位论文全文数据库 前10条
1 韦福如;基于图模型多文档自动文摘研究[D];武汉大学;2009年
2 蒋昌金;基于关键词提取的中文网页自动文摘方法研究[D];华南理工大学;2010年
3 吴平;汉语部分句式的形式语义分析[D];北京语言大学;2005年
4 杨潇;基于生成性概率模型的句法分析和多文档自动文摘研究[D];山东大学;2009年
5 陈清才;基于粗集的汉语建模及其应用研究[D];哈尔滨工业大学;2003年
6 赵林;面向查询的多文档自动文摘关键技术研究[D];复旦大学;2008年
7 余继宏;基于符号学理论的家具形态研究[D];南京林业大学;2009年
8 周文;基于概念的若干知识表示模型及相关方法研究[D];上海大学;2007年
9 由丽萍;构建现代汉语框架语义知识库技术研究[D];上海师范大学;2006年
10 顾志伟;面向结构化数据的视频检索研究[D];中国科学技术大学;2008年
中国硕士学位论文全文数据库 前10条
1 邢宣宇;基于主题会话的语义分析工具的研制[D];湖南大学;2005年
2 张明芹;AB式象声词的重叠形式研究[D];广西师范大学;2006年
3 阮贵义;汉语借用动量词及相关问题研究[D];北京语言大学;2007年
4 简榕蓉;现代汉语动词计量的语义分析及教学策略[D];华中科技大学;2006年
5 宋光鹏;文本的情感倾向分析研究[D];北京邮电大学;2008年
6 谢慧萍;现代汉语动词表层语义研究[D];湘潭大学;2005年
7 梁良;异种程序设计语言间的翻译模型设计及方法研究[D];电子科技大学;2005年
8 李利霞;微型数据库引擎的研究[D];武汉理工大学;2006年
9 贺阳剑;基于格语法和VerbNet的问答系统研究[D];中南大学;2007年
10 肖伟;基于语义的BLOG社区文本倾向性分析[D];上海交通大学;2007年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62791813
  • 010-62985026