收藏本站
《计算机工程与科学》 2011年07期
收藏 | 投稿 | 手机打开
二维码
手机客户端打开本文

一种概念同现模型的多文档文摘研究

王萌  徐超  李春贵  何婷婷  
【摘要】:本文提出了一种概念同现模型的多文档自动文摘方法。该方法使用HowNet进行概念获取,建立概念向量空间模型,利用词汇的吸引与排斥现象和概念同现频率建立概念同现模型,并使用概念同现模型计算各概念的权重,利用建立的概念向量空间模型计算句子权重,根据句子权重和相似度情况产生文摘。使用改进的ROUGE-N评测方法、主题词覆盖(TWC)、高频词覆盖率(HFWC)作为评测指标对系统产生的文摘进行评测,结果显示这些方法是有效的。
【作者单位】广西工学院计算机工程系;福建师范大学软件学院;华中师范大学计算机科学系;
【基金】:国家863计划资助项目(2009AA04Z146) 国家自然科学基金资助项目(90920005) 广西教育厅项目(200808LX338,200808LX341) 福建省教育厅B类项目(JB09054)
【分类号】:TP391.1
【正文快照】:
1引言随着网络的日益普及,在线信息急剧增加,如何有效地获取和描述这些文本信息显得越来越重要。尽管用户通过搜索引擎可快速获得丰富的文档,但要获取其中内容则需消耗大量时间去阅读每一篇文档[1]。自动文摘是利用计算机从文章中自动提取内容生成摘要的方法,其中摘要应包含

【参考文献】
中国期刊全文数据库 前4条
1 孙春葵,李蕾,杨晓兰,钟义信;基于知识的文本摘要系统研究与实现[J];计算机研究与发展;2000年07期
2 徐永东;徐志明;王晓龙;;基于信息融合的多文档自动文摘技术[J];计算机学报;2007年11期
3 刘德喜;姬东鸿;;基于基本要素的文摘内容连贯性评测模型[J];计算机学报;2008年04期
4 王萌,何婷婷,姬东鸿,王晓荣;基于HowNet概念获取的中文自动文摘系统[J];中文信息学报;2005年03期
【共引文献】
中国期刊全文数据库 前10条
1 乌庆敏;杨思春;;概念向量空间模型在智能答疑系统中的应用[J];安徽工业大学学报(自然科学版);2008年02期
2 张筱丹;胡学钢;;基于向量空间模型的自动摘要冗余处理研究[J];合肥工业大学学报(自然科学版);2010年09期
3 刘其云;;Web信息抽取中XML在Agent技术中的应用[J];黑龙江科技信息;2007年21期
4 王继成 ,武港山 ,周源远 ,张福炎;一种篇章结构指导的中文Web文档自动摘要方法[J];计算机研究与发展;2003年03期
5 晋耀红,苗传江;一个基于语境框架的文本特征提取算法[J];计算机研究与发展;2004年04期
6 胡俊华,杨波,李金屏;自然语言理解研究略述[J];济南大学学报(社会科学版);2001年05期
7 王萌,何婷婷,张伟;基于概念向量空间模型的中文自动文摘系统[J];计算机工程与应用;2005年01期
8 王萌;李春贵;徐超;何婷婷;;主题与子事件发现的多文档自动文摘[J];计算机工程与应用;2011年18期
9 纪文倩;李舟军;巢文涵;陈小明;;一种基于LexRank算法的改进的自动文摘系统[J];计算机科学;2010年05期
10 蔡建山;迟呈英;战学刚;王丫;;基于滑动窗口的动态摘要算法[J];计算机工程;2007年06期
中国博士学位论文全文数据库 前8条
1 韦福如;基于图模型多文档自动文摘研究[D];武汉大学;2009年
2 杨峰;本体映射关键技术研究[D];吉林大学;2011年
3 刘娜;文本自动摘要和信息抽取方法及其应用研究[D];大连海事大学;2012年
4 耿焕同;范例推理与互联网文本信息处理研究[D];中国科学技术大学;2006年
5 何清;机器学习与文本挖掘若干算法研究[D];中国科学院研究生院(计算技术研究所);2002年
6 刘德喜;基于基本要素的多文档自动文摘研究[D];武汉大学;2007年
7 周文;基于概念的若干知识表示模型及相关方法研究[D];上海大学;2007年
8 刘竟;面向概念检索的农史信息门户的设计与构建[D];南京农业大学;2008年
中国硕士学位论文全文数据库 前10条
1 胡志敏;互联网文本自动文摘技术的研究[D];湘潭大学;2010年
2 吴世汉;面向查询的XML文本摘要技术[D];江西财经大学;2010年
3 徐德玉;中文文档内容相似度检测方法研究[D];长春工业大学;2010年
4 王俊俊;面向企业竞争情报的Web文本挖掘关键技术的研究与实现[D];西安电子科技大学;2010年
5 徐绮楠;面向web文本挖掘的中文文本自动摘要关键技术研究[D];西安电子科技大学;2009年
6 潘高源;Deep Web查询结果抽取技术的研究[D];吉林大学;2011年
7 梁浩;网络新闻相似度检测系统[D];吉林大学;2011年
8 王询;面向航运领域的文本分类系统[D];大连海事大学;2011年
9 熊颖;中文多文档摘要关键技术研究[D];北京邮电大学;2011年
10 杨慧娟;基于语义体与模糊聚类的中文垃圾邮件过滤方法研究[D];兰州理工大学;2011年
【二级参考文献】
中国期刊全文数据库 前5条
1 姜贤塔,陈根才;利用字频统计及机器学习的自动文摘方法[J];杭州大学学报(自然科学版);1997年03期
2 孙春葵,李蕾,杨晓兰,钟义信;基于知识的文本摘要系统研究与实现[J];计算机研究与发展;2000年07期
3 万敏,罗振声,季姮,高小云;基于概念统计的英文自动文摘研究[J];计算机工程与应用;2002年24期
4 王建波,王开铸;自然语言篇章理解及基于理解的自动文摘研究[J];中文信息学报;1992年02期
5 吴岩,刘挺,王开铸,陈彬;中文自动文摘原理与方法探索[J];中文信息学报;1998年02期
中国博士学位论文全文数据库 前1条
1 陈清才;基于粗集的汉语建模及其应用研究[D];哈尔滨工业大学;2003年
【相似文献】
中国期刊全文数据库 前10条
1 陈英芝;;基于语义的中文自动文摘方法[J];科技信息;2009年30期
2 秦兵,刘挺,李生;基于局部主题判定与抽取的多文档文摘技术[J];自动化学报;2004年06期
3 郭庆琳,樊孝忠,柳长安;基于文本聚类和NLU的自动文摘研究[J];北京理工大学学报;2005年08期
4 王萌;徐超;李春贵;何婷婷;;基于子主题区域划分的多文档自动文摘方法[J];计算机工程;2011年12期
5 程显毅;潘燕;朱倩;孙萍;;面向事件的多文档文摘生成算法的研究[J];广西师范大学学报(自然科学版);2011年01期
6 王萌,何婷婷,姬东鸿,王晓荣;基于HowNet概念获取的中文自动文摘系统[J];中文信息学报;2005年03期
7 王萌;李春贵;徐超;何婷婷;;主题与子事件发现的多文档自动文摘[J];计算机工程与应用;2011年18期
8 王大亮,孙建涛,陆玉昌,夏克俭,王泉德;基于HowNet构造语义场的方法[J];清华大学学报(自然科学版);2005年01期
9 郭庆琳;樊孝忠;柳长安;;基于文本聚类的自动文摘系统的研究与实现[J];计算机工程;2006年04期
10 陈浩;何婷婷;姬东鸿;;基于MDL聚类的无导词义消歧[J];小型微型计算机系统;2005年10期
中国重要会议论文全文数据库 前10条
1 张明慧;王红玲;周国栋;;LDA主题驱动的中文多文档自动文摘方法[A];第五届全国青年计算语言学研讨会论文集[C];2010年
2 仇伟;黄高辉;姚天昉;;基于HowNet的汉语情感问句二层分类[A];第六届全国信息检索学术会议论文集[C];2010年
3 余骁捷;邵阳;吴及;王侠;;基于SVM和MMR融和的自动文摘方法[A];第十一届全国人机语音通讯学术会议论文集(一)[C];2011年
4 耿崇;宋丹;薛德军;张灿;;基于词位置与同现特征的中文自动文摘研究[A];第五届全国信息检索学术会议论文集[C];2009年
5 秦兵;刘挺;李生;;基于子主题的多文档文摘[A];第二届全国信息检索与内容安全学术会议(NCIRCS-2005)论文集[C];2005年
6 吕静;昝红英;;基于语义统计的中文自动文摘研究[A];第三届学生计算语言学研讨会论文集[C];2006年
7 刘海涛;老松杨;吴玲达;;基于段落自适应聚类的自动文摘系统研究[A];第一届建立和谐人机环境联合学术会议(HHME2005)论文集[C];2005年
8 张亮;陈肇雄;黄河燕;;基于ontology的问答系统问题分类研究[A];第六届汉语词汇语义学研讨会论文集[C];2005年
9 申晓晔;封化民;毋非;;基于语义理解的Web新闻倾向性分析[A];第四届全国信息检索与内容安全学术会议论文集(上)[C];2008年
10 黄海源;郑德权;赵铁军;;面向特定领域的多文档文摘技术研究[A];第四届全国信息检索与内容安全学术会议论文集(上)[C];2008年
中国博士学位论文全文数据库 前2条
1 滕伟;面向Web信息集成的Web信息抽取中若干关键问题的研究[D];上海交通大学;2007年
2 夏迎炬;文本过滤关键技术研究[D];复旦大学;2003年
中国硕士学位论文全文数据库 前10条
1 高超;一种基于综合背景概念格的中文自动文摘方法[D];中南大学;2011年
2 王晖;面向Web论坛的自动文摘方法的研究[D];山东大学;2010年
3 周德友;基于HowNet的中文语义倾向性分析技术研究[D];东北大学;2008年
4 李辉;基于语义关系的摘要提取[D];南京理工大学;2004年
5 李壮;汉英平行语料库的词义自动标注方法研究[D];哈尔滨工业大学;2007年
6 卢冶;基于概念扩充和综合评价的中文自动文摘研究[D];大连理工大学;2006年
7 林晓庆;基于NP树的英文专利文献术语自动翻译技术研究[D];沈阳航空工业学院;2009年
8 祁智苗;基于HowNet的语义检索模型的设计与实现[D];北京邮电大学;2009年
9 付玲玲;结合本体HowNet的中文文本分类研究[D];重庆大学;2011年
10 苗家;Blog文档的自动文摘方法研究[D];山东大学;2011年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62791813
  • 010-62985026