收藏本站
《计算机科学》 2011年08期
收藏 | 投稿 | 手机打开
二维码
手机客户端打开本文

基于事件实例驱动的新闻文本事件抽取

许旭阳  李弼程  张先飞  韩永峰  
【摘要】:目前,事件抽取的流行方法是以事件元素或触发词进行驱动,但该方法容易导致正反例不平衡,且在语料库规模较小时存在一定的数据稀疏问题。提出了一种基于事件实例驱动的事件抽取方法。首先,从文档句子中抽取出刻画一个事件发生有代表性的特征,构成候选事件实例表示;其次,通过二元分类器对新闻文本中的事件实例与非事件实例进行分类;最后,对事件实例采用基于层次聚类的k-medoids算法完成事件抽取。该方法不仅克服了正反例失衡以及数据稀疏问题,而且解决了预先定义事件类别的局限性。实验结果验证了该方法的有效性,对比传统方法,事件抽取的准确率与召回率均获得了显著的提高。
【作者单位】解放军信息工程大学信息工程学院;
【基金】:国家社科重大基金项目(09&ZD014) 国家863项目(2007AA01Z439)资助
【分类号】:TP391.1
【正文快照】:
1引言事件抽取(Event Extraction)隶属于信息抽取领域,主要研究如何把含有事件信息的非结构化文本以结构化的形式呈现出来。它涉及自然语言处理、数据挖掘、机器学习等多个学科的技术和方法,在自动摘要[1]、信息检索[2]等领域均有着广泛的应用。因此,事件抽取技术的研究具有

【参考文献】
中国期刊全文数据库 前2条
1 张先飞;郭志刚;刘嵩;程磊;田雨暄;;基于触发词指导的自相似度聚类事件检测[J];计算机科学;2010年03期
2 赵妍妍;秦兵;车万翔;刘挺;;中文事件抽取技术研究[J];中文信息学报;2008年01期
中国博士学位论文全文数据库 前1条
1 谭红叶;中文事件抽取关键技术研究[D];哈尔滨工业大学;2008年
中国硕士学位论文全文数据库 前1条
1 冯礼;基于事件框架的突发事件信息抽取[D];上海交通大学;2008年
【共引文献】
中国期刊全文数据库 前10条
1 王伟;赵东岩;赵伟;;中文新闻关键事件的主题句识别[J];北京大学学报(自然科学版);2011年05期
2 赵江江;秦兵;;基于BootStrapping的中文事件元素抽取系统设计与实现[J];智能计算机与应用;2012年01期
3 樊旭琴;张永奎;;基于词对向量空间模型的新事件检测方法[J];计算机工程与应用;2010年12期
4 付剑锋;刘宗田;付雪峰;周文;仲兆满;;基于依存分析的事件识别[J];计算机科学;2009年11期
5 张先飞;郭志刚;刘嵩;程磊;田雨暄;;基于触发词指导的自相似度聚类事件检测[J];计算机科学;2010年03期
6 付剑锋;刘宗田;刘炜;单建芳;;基于特征加权的事件要素识别[J];计算机科学;2010年03期
7 许荣华;吴刚;李培峰;朱巧明;;基于指代消解的中文事件融合方法[J];计算机应用;2009年08期
8 许荣华;吴刚;李培峰;朱巧明;;基于事件框架的主题事件融合研究[J];计算机应用研究;2009年12期
9 仲兆满;刘宗田;周文;付剑锋;;事件关系表示模型[J];中文信息学报;2009年06期
10 石振国;刘宗田;王杰华;冯达盛;;事件网络模型与应用研究[J];南通大学学报(自然科学版);2010年03期
中国重要会议论文全文数据库 前4条
1 胡博磊;贺瑞芳;孙宏;王文俊;孙越恒;;基于条件随机域的中文事件类型识别[A];第六届全国信息检索学术会议论文集[C];2010年
2 ;Event Detection and Type Recognition Using Selftraining[A];Proceedings of 2010 The 3rd International Conference on Computational Intelligence and Industrial Application(Volume 3)[C];2010年
3 曾青青;杨尔弘;;事件词驱动的文本事件信息结构初探[A];中国计算语言学研究前沿进展(2009-2011)[C];2011年
4 孟雷;丁效;秦兵;刘挺;;基于依存句法和短语结构句法结合的金融领域事件元素抽取[A];中国计算语言学研究前沿进展(2009-2011)[C];2011年
中国博士学位论文全文数据库 前5条
1 安海岗;专题新闻文本集信息可视化理论模型研究[D];中国地质大学(北京);2010年
2 付剑锋;面向事件的知识处理研究[D];上海大学;2010年
3 高田;基于领域知识的旅游突发事件状态评估与演化研究[D];北京邮电大学;2011年
4 仲兆满;事件本体及其在查询扩展中的应用[D];上海大学;2011年
5 单建芳;面向事件的文本表示研究[D];上海大学;2012年
中国硕士学位论文全文数据库 前10条
1 金璐钰;基于框架的事件抽取关键技术研究[D];苏州大学;2010年
2 范春晓;基于XML的Web信息抽取技术研究[D];沈阳理工大学;2010年
3 孙萍;面向事件的多文档自动文摘研究[D];江苏大学;2010年
4 刘嵩;网络中文事件自动检测技术研究[D];解放军信息工程大学;2010年
5 崔娜;面向用户需求的专题新闻文本集可视化模型研究[D];中国地质大学(北京);2009年
6 吴刚;基于主题的中文事件抽取技术研究及应用[D];苏州大学;2009年
7 陈小陆;人物言论抽取与跟踪技术研究[D];哈尔滨工业大学;2008年
8 杨超;基于Agent的旅游突发事件信息集成系统研究[D];北京邮电大学;2009年
9 许荣华;面向话题的事件信息融合研究与实现[D];苏州大学;2009年
10 董萍;基于知网语义关系的中文事件信息抽取研究[D];西安电子科技大学;2010年
【二级参考文献】
中国期刊全文数据库 前10条
1 朱靖波,姚天顺;中文信息自动抽取[J];东北大学学报;1998年01期
2 吴芬芬;刘磊;肖宪;;一种启发式的信息抽取算法[J];吉林大学学报(理学版);2007年01期
3 李保利,陈玉忠,俞士汶;信息抽取研究综述[J];计算机工程与应用;2003年10期
4 李保利,俞士汶;话题识别与跟踪研究[J];计算机工程与应用;2003年17期
5 刘云峰,齐欢,代建民;潜在语义分析在中文信息处理中的应用[J];计算机工程与应用;2005年03期
6 贺智平;徐学洲;李爱玲;;一种基于信息熵的Web页面主题信息抽取方法[J];计算机工程与应用;2007年04期
7 胡睿,张冬茉,杜蓬;基于结点语义关系的信息抽取技术[J];计算机工程;2001年04期
8 谭红叶,郑家恒,刘开瑛;中国地名自动识别系统的设计与实现[J];计算机工程;2002年08期
9 孔祥勇,张冬茉;一种信息抽取系统中汉语同指消解算法[J];计算机工程;2003年16期
10 姜吉发;一种跨语句汉语事件信息抽取方法[J];计算机工程;2005年02期
中国重要会议论文全文数据库 前1条
1 赵妍妍;王啸吟;秦兵;车万翔;刘挺;;中文事件抽取中事件类别的自动识别[A];第三届学生计算语言学研讨会论文集[C];2006年
中国博士学位论文全文数据库 前1条
1 姜吉发;自由文本的信息抽取模式获取的研究[D];中国科学院研究生院(计算技术研究所);2004年
中国硕士学位论文全文数据库 前2条
1 徐超;基于种子自扩展的命名实体关系抽取方法的研究[D];华中师范大学;2006年
2 陈静;基于本体的信息抽取研究[D];苏州大学;2007年
【相似文献】
中国期刊全文数据库 前10条
1 徐甜;肖新峰;;Web文本表示及其分类研究[J];微计算机信息;2007年21期
2 郝玉清;;空间数据挖掘技术理论及方法[J];科技创业月刊;2006年05期
3 钱云涛,谢维信;一种新的高斯基函数分类器训练方法的研究[J];电子学报;1996年07期
4 杨永;王莉利;;基于K-means聚类和遗传算法的少数类样本采样方法研究[J];科学技术与工程;2010年10期
5 缪志敏;潘志松;袁伟伟;赵陆文;;一种新的基于SVDD的多类分类算法[J];计算机科学;2009年03期
6 李欢;;半监督学习及其在数据挖掘中的应用[J];电脑知识与技术;2010年27期
7 朱程辉;孙东卫;丰义;吴德会;;基于支持向量机的无监督聚类算法研究[J];计算机工程与应用;2007年26期
8 冯兴杰,黄亚楼;带约束条件的聚类算法研究[J];计算机工程与应用;2005年07期
9 王安娜;刘俊芳;袁文静;王勤万;;基于不完全BT-SVMs分类的模拟电路故障诊断方法[J];系统仿真学报;2008年04期
10 任靖;陆甡;翟旭君;戴涛;刘璧松;李春平;;数据挖掘工具集TH-Miner[J];计算机工程;2006年04期
中国重要会议论文全文数据库 前10条
1 杜方键;杨宏晖;;K均值聚类优化集成学习[A];2011'中国西部声学学术交流会论文集[C];2011年
2 朱慕华;陈文亮;朱靖波;;词聚类在文本分类中的应用[A];第二届全国学生计算语言学研讨会论文集[C];2004年
3 武森;金海燕;高学东;;数据挖掘中CABOSFV聚类算法的实现与应用[A];全国第八届工业工程与企业信息化学术会议论文集[C];2004年
4 穆向禹;浦剑涛;张树武;徐波;;基于状态子空间聚类的多层MLLR自适应算法[A];第七届全国人机语音通讯学术会议(NCMMSC7)论文集[C];2003年
5 穆明生;;基于特征集的多种分类器模型的在线笔迹认证[A];第十届全国信号处理学术年会(CCSP-2001)论文集[C];2001年
6 朱思俞;石锋;;不定人连续汉语音的四声识别[A];第二届全国人机语音通讯学术会议论文集[C];1992年
7 邵小健;段华;贺国平;;一种改进的最少核分类器[A];中国运筹学会第七届学术交流会论文集(上卷)[C];2004年
8 饶鲜;李斌;杨绍全;;用核聚类法进行异常检测[A];信号与信息处理技术第三届信号与信息处理全国联合学术会议论文集[C];2004年
9 杨广林;赵云峰;王书理;;Gabor滤波器及其在图像特征提取方面的优化算法[A];2005年中国智能自动化会议论文集[C];2005年
10 冯又层;蔡勖;;基于自组织特征映射的证券市场聚类[A];第二届全国复杂动态网络学术论坛论文集[C];2005年
中国重要报纸全文数据库 前10条
1 董天策 暨南大学新闻学院教授;多研读新闻文本[N];中华新闻报;2005年
2 黄明;精子分类器决定生男生女[N];广东科技报;2000年
3 王云鹤 熊立;武汉电信直销中心剑指聚类市场[N];人民邮电;2009年
4 记者 肖卓;聚类市场:想挖金矿不容易[N];人民邮电;2009年
5 张秋;突破聚类市场的信息化盲区[N];中国计算机报;2007年
6 刘永昶;关于新闻叙事学研究的一些思考[N];中华新闻报;2004年
7 武德锋 李国辉 林洪文 姚作梁;图像世界任我行[N];计算机世界;2002年
8 中国科学院计算技术研究所 王 斌;内容为王[N];计算机世界;2004年
9 符信;30个指标评价社会发展水平[N];南方日报;2005年
10 记者 李远治 通讯员 邹超 敖翔;重庆号百传媒探索聚类市场新模式[N];人民邮电;2009年
中国博士学位论文全文数据库 前10条
1 蔡维玲;基于聚类的图像分割和分类器设计的研究[D];南京航空航天大学;2008年
2 杨显飞;数据流集成分类器算法研究[D];哈尔滨工程大学;2011年
3 石陆魁;非线性维数约减算法中若干关键问题的研究[D];天津大学;2005年
4 李杰;基因表达谱分析若干关键技术研究[D];哈尔滨工业大学;2007年
5 安海岗;专题新闻文本集信息可视化理论模型研究[D];中国地质大学(北京);2010年
6 王喆;面向模式表示与模式源的分类器设计方法研究[D];南京航空航天大学;2008年
7 谢元澄;分类器集成研究[D];南京理工大学;2009年
8 严志永;在划分数据空间的视角下基于决策边界的分类器研究[D];浙江大学;2011年
9 关菁华;基于贝叶斯网数据挖掘若干问题研究[D];吉林大学;2009年
10 谭红叶;中文事件抽取关键技术研究[D];哈尔滨工业大学;2008年
中国硕士学位论文全文数据库 前10条
1 赵忠华;基于机器学习的入侵检测研究[D];山东大学;2009年
2 王斌;双层数据流聚类框架的设计与实现[D];吉林大学;2004年
3 蔡博文;高维数据集中离群数据挖掘方法的研究[D];合肥工业大学;2006年
4 刘晓燕;基于聚类的入侵检测系统研究[D];青岛大学;2006年
5 于世东;多维数据可视化技术的研究及应用[D];沈阳工业大学;2006年
6 王健;基于多关系分类聚类的学习适应性诊断[D];江苏大学;2010年
7 戴金;改进K-MEANS算法及在Ⅰ型糖尿病血糖值的聚类应用[D];北京交通大学;2011年
8 孙会岭;移动环境中基于聚类的个性化推荐算法研究[D];燕山大学;2011年
9 郑国荣;基于电信CRM系统的客户消费模式研究[D];重庆大学;2005年
10 王清江;基于力学的聚类算法[D];大连理工大学;2006年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62791813
  • 010-62985026