收藏本站
《北京理工大学学报》 2005年07期
收藏 | 投稿 | 手机打开
二维码
手机客户端打开本文

基于最大熵模型的交集型切分歧义消解

张锋  樊孝忠  
【摘要】:利用最大熵模型研究中文自动分词中交集型切分歧义的消解.模型输出的类别为两种:前两个字结合成词和后两个字结合成词.模型采用的特征为:待切分歧义字段的上下文各一个词、待切分歧义字段和歧义字段两种切分可能的词概率大小关系.通过正向最大匹配(FMM)和逆向最大匹配(BMM)相结合的分词方法,发现训练文本中的交集型歧义字段并进行标注,用于最大熵模型的训练.实验用1998年1月《人民日报》中出现的交集型歧义字段进行训练和测试,封闭测试正确率98.64%,开放测试正确率95.01%,后者比常用的词概率法提高了3.76%.
【作者单位】北京理工大学信息科学技术学院计算机科学工程系 北京理工大学信息科学技术学院计算机科学工程系
【分类号】:TP391.1
【正文快照】:
自动分词是中文信息处理的基础,分词结果的好坏直接影响诸如机器翻译、信息检索、信息抽取等研究的效果.切分歧义消解是汉语自动分词研究还没有解决好的问题之一,也是影响自动分词系统分词准确率的一个重要因素.切分歧义有两种类型:交集型歧义和覆盖型歧义[1].交集型歧义是自

【引证文献】
中国博士学位论文全文数据库 前1条
1 冯敏萱;论汉英平行语料的平行处理[D];南京师范大学;2006年
中国硕士学位论文全文数据库 前2条
1 刘婷;中文自动分词法在全文检索中的研究及应用[D];南京航空航天大学;2007年
2 程冲;信息检索用汉语分词与未登录词识别技术研究[D];南京农业大学;2007年
【参考文献】
中国期刊全文数据库 前1条
1 李蓉,刘少辉,叶世伟,史忠植;基于SVM和k-NN结合的汉语交集型歧义切分方法[J];中文信息学报;2001年06期
【共引文献】
中国期刊全文数据库 前10条
1 孙茂松,邹嘉彦;汉语自动分词研究评述[J];当代语言学;2001年01期
2 杜永萍,郑家恒;分词及词性标注一致性校对系统的设计与实现[J];电脑开发与应用;2001年10期
3 张辉,徐健;中国组织机构名自动识别系统的设计与实现[J];电脑开发与应用;2002年01期
4 王显芳,杜利民;一种能够检测所有交叉歧义的汉语分词算法[J];电子学报;2004年01期
5 王显芳,杜利民;利用覆盖歧义检测法和统计语言模型进行汉语自动分词[J];电子与信息学报;2003年09期
6 刘禹孜,何中市;一种基于SVM和规则消除组合型歧义的算法[J];重庆大学学报(自然科学版);2005年10期
7 蔡勇智;基于最大匹配分词算法的中文词语粗分模型[J];福建电脑;2005年09期
8 冯丽萍;;基于统计的中文组织机构名识别[J];福建电脑;2006年01期
9 谢春发;中文信息处理在智能答疑系统中的应用研究[J];福建广播电视大学学报;2005年02期
10 李朝虹,陆建湖;现代汉语自动分析研究现状综述[J];广西教育学院学报;2003年01期
中国重要会议论文全文数据库 前10条
1 曾华琳;史晓东;李堂秋;;基于上下文信息提取的概率分词算法[A];第六届汉语词汇语义学研讨会论文集[C];2005年
2 靳光瑾;郭曙纶;肖航;章云帆;;语料库加工中的规范问题——谈《信息处理用现代汉语词类标记集规范》[A];语言文字应用研究论文集(Ⅱ)[C];2004年
3 孙茂松;;汉语自动分词研究的若干最新进展——清华大学相关工作简介[A];辉煌二十年——中国中文信息学会二十周年学术会议论文集[C];2001年
4 陶建华;蔡莲红;赵晟;;汉语语音合成中的文本分析和韵律处理[A];辉煌二十年——中国中文信息学会二十周年学术会议论文集[C];2001年
5 董强;郝长伶;董振东;;基于《知网》的中文语块抽取器[A];语言计算与基于内容的文本处理——全国第七届计算语言学联合学术会议论文集[C];2003年
6 李斌;陈小荷;方芳;徐艳华;;高频最大交集型歧义字段问题研究[A];全国第八届计算语言学联合学术会议(JSCL-2005)论文集[C];2005年
7 孙承杰;黄昌宁;关毅;;基于标注语料库的组合歧义检测与消解[A];第三届学生计算语言学研讨会论文集[C];2006年
8 程月;季娜;洪鹿平;;基于语料统计的以“不”开头双字分词不一致研究[A];第三届学生计算语言学研讨会论文集[C];2006年
9 杜超华;沈威;姚双云;;基于复句语料库的分词系统的研究[A];第三届学生计算语言学研讨会论文集[C];2006年
10 朱丽丽;郑家恒;;一种基于实例学习的人名识别方法[A];中文信息处理前沿进展——中国中文信息学会二十五周年学术会议论文集[C];2006年
中国博士学位论文全文数据库 前10条
1 张蕾;概念结构及其应用[D];西北工业大学;2001年
2 刘忠;性质语意理论的提出与自然语言理解及其实现的研究[D];华东师范大学;2004年
3 隋岩;基于“动态流通语料库”的“有效字符串”提取研究[D];北京语言大学;2004年
4 郑逢斌;关于计算机理解自然查询语言的研究[D];西南交通大学;2004年
5 郑泽芝;基于动态流通语料库(DCC)的汉语字母词语识别及考察研究[D];北京语言大学;2005年
6 刘伟;现代汉语代词隐现的动态研究[D];北京语言大学;2005年
7 杨尔弘;突发事件信息提取研究[D];北京语言大学;2005年
8 易勇;计算机辅助诗词创作中的风格辨析及联语应对研究[D];重庆大学;2005年
9 余传明;基于本体的语义信息系统研究[D];武汉大学;2005年
10 贺前华;汉语自动分词及机器翻译研究[D];华南理工大学;1993年
中国硕士学位论文全文数据库 前10条
1 何燕;任意类型的未登录词的识别研究[D];北京语言文化大学;2000年
2 娄(王廷);现代汉语分词系统通用性设计及切分歧义处理[D];北京工业大学;2000年
3 吴思;聚类分析及其在农业物种信息自动提取中的应用[D];湘潭大学;2001年
4 黄艳;面向数字化产品的自然语言查询技术的研究与开发[D];浙江大学;2002年
5 缪晓阳;WebCM:一种基于搜索引擎的网络内容监控系统的研究[D];浙江大学;2002年
6 罗智勇;现代汉语通用分词系统的技术与实现[D];北京工业大学;2002年
7 廉竹钧;汉语组合型切分歧义字段消歧方法研究[D];北京语言文化大学;2002年
8 张丽静;规则与统计相结合的兼类词处理机制[D];大连理工大学;2002年
9 马东坡;Internet中文智能搜索引擎汉语自动分词系统设计[D];广西师范大学;2002年
10 皮鹏;智能搜索引擎系统的研究[D];哈尔滨工程大学;2002年
【同被引文献】
中国期刊全文数据库 前10条
1 马哲,姚敏;一种改进的基于PATRICIA树的汉语自动分词词典机制[J];华南理工大学学报(自然科学版);2004年S1期
2 胡文英;祖漪清;王志中;;语句的基频曲线预测[J];声学学报(中文版);2006年01期
3 吴岩,李秀坤,刘挺,王开铸;中文自动校对系统的研究与实现[J];哈尔滨工业大学学报;2001年01期
4 骆正清,陈增武,胡上序;一种改进的MM分词方法的算法设计[J];中文信息学报;1996年03期
5 赵曾贻,陈天娥,朱兰;一种基于语词的分词方法[J];苏州大学学报(自然科学版);2002年03期
6 赵艳红,费洪晓;一个基于改进的反序分词词典的中文分词算法[J];深圳职业技术学院学报;2004年04期
7 黄昌宁;统计语言模型能做什么?[J];语言文字应用;2002年01期
8 龚汉明,周长胜;汉语分词技术综述[J];北京机械工业学院学报;2004年03期
9 周水庚,关佶红,胡运发,周傲英;一个无需词典支持和切词处理的中文文档分类系统[J];计算机研究与发展;2001年07期
10 湛燕,陈昊,袁方,王熙照;基于中文文本分类的分词方法研究[J];计算机工程与应用;2003年23期
中国重要会议论文全文数据库 前2条
1 柏晓静;常宝宝;詹卫东;吴拥华;;构建大规模的汉英双语平行语料库[A];机器翻译研究进展——2002年全国机器翻译研讨会论文集[C];2002年
2 赵妍妍;王啸吟;秦兵;车万翔;刘挺;;中文事件抽取中事件类别的自动识别[A];第三届学生计算语言学研讨会论文集[C];2006年
中国博士学位论文全文数据库 前5条
1 杨传耀;中文信息检索索引模型及相关技术研究[D];复旦大学;2007年
2 肖明;WWW科技信息资源自动标引的理论与实践研究[D];中国科学院文献情报中心;2001年
3 李刚;知识发现的图模型方法[D];中国科学院软件研究所;2001年
4 王建会;中文信息处理中若干关键技术的研究[D];复旦大学;2004年
5 王磊;支持向量机学习算法的若干问题研究[D];电子科技大学;2007年
中国硕士学位论文全文数据库 前10条
1 张思光;韵律文本驱动的三维口型动画研究[D];北京工业大学;2008年
2 姜鹏;基于双数组的分词词典研究与实现[D];大连理工大学;2006年
3 张旭;一个基于词典与统计的中文分词算法[D];电子科技大学;2007年
4 刘宽;现代汉语自动分词歧义分析及其消歧处理研究[D];兰州理工大学;2006年
5 刘志红;说“一A”[D];广西师范大学;2007年
6 何燕;任意类型的未登录词的识别研究[D];北京语言文化大学;2000年
7 薛松;汉英平行语料库中名词短语对齐算法的研究[D];中国科学院研究生院(软件研究所);2003年
8 朱珣;中文自动分词系统的研究[D];华中师范大学;2004年
9 俞鸿魁;基于层次隐马尔可夫模型的汉语词法分析和命名实体识别技术[D];北京化工大学;2004年
10 吴凤娟;汉英歧义现象对比研究[D];华中科技大学;2004年
【二级参考文献】
中国期刊全文数据库 前2条
1 李蓉 ,叶世伟 ,史忠植;SVM-KNN分类器——一种提高SVM分类精度的新方法[J];电子学报;2002年05期
2 孙茂松,左正平,邹嘉彦;高频最大交集型歧义切分字段在汉语自动分词中的作用[J];中文信息学报;1999年01期
【相似文献】
中国期刊全文数据库 前10条
1 杨撼岳;陈笑蓉;郑高山;;水族文字笔形编码方法研究[J];计算机工程;2011年14期
2 彭成;季培培;;基于确定性退火的中文术语语义层次关联研究[J];计算机应用研究;2011年09期
3 张野;杨建林;;基于KNN和SVM的中文文本自动分类研究[J];情报科学;2011年09期
4 王伟;赵东岩;赵伟;;中文新闻关键事件的主题句识别[J];北京大学学报(自然科学版);2011年05期
5 顾潇华;姜亦强;崔涛;;中文自动标引、全文检索及中文搜索引擎三者关系的探讨[J];图书馆学研究;2011年17期
6 张尊生;;《信息技术 信息交换用汉字编码字符集 基本集的扩充》和《信息技术 数字键盘汉字输入通用要求》国家标准发布[J];中国标准导报;2000年03期
7 赵晓凡;胡顺义;刘永革;;CRF模型中参数f在字标注汉语分词中的适用性研究[J];郑州大学学报(工学版);2011年04期
8 申兵一;巩青歌;;中文分词技术在搜索引擎中的应用研究[J];计算机与网络;2010年01期
9 谭魏璇;孔芳;倪吉;周国栋;;基于混合统计模型的中文基本名词短语识别[J];计算机应用与软件;2011年08期
10 于江德;谷川;葛文英;樊孝忠;;一种基于字和子串联合标注的汉语分词方法[J];山西大学学报(自然科学版);2011年03期
中国重要会议论文全文数据库 前10条
1 陈晓;;中文文本自动分词研究述要[A];第四届全国语言文字应用学术研讨会论文集[C];2005年
2 孙茂松;;汉语自动分词研究及其应用:回顾与展望[A];面向21世纪的科技进步与社会经济发展(上册)[C];1999年
3 ;中国中文信息学会交流材料[A];2011年网络学术交流研讨会交流材料[C];2011年
4 孙茂松;;汉语自动分词研究的若干最新进展——清华大学相关工作简介[A];辉煌二十年——中国中文信息学会二十周年学术会议论文集[C];2001年
5 孙玉芳;;中文信息处理与国家信息化建设[A];面向21世纪的科技进步与社会经济发展(上册)[C];1999年
6 汪华峰;陈峪;;汉语自然语言理解中词切分中新词问题初探[A];第一届全国语言识别学术报告与展示会论文集[C];1990年
7 ;前言[A];全国第八届计算语言学联合学术会议(JSCL-2005)论文集[C];2005年
8 ;前言[A];中文信息处理前沿进展——中国中文信息学会二十五周年学术会议论文集[C];2006年
9 刘春荣;;我国当务之急是解决中文书写方式的根本变革[A];中国中文信息学会汉字编码专业委员会第九届年会暨学术研讨会论文集[C];2011年
10 孙茂松;王洪君;董秀芳;;《信息处理用现代汉语分词词表》规范[A];语言计算与基于内容的文本处理——全国第七届计算语言学联合学术会议论文集[C];2003年
中国重要报纸全文数据库 前10条
1 记者 梁捷;我国中文信息处理技术从实验室走向全面应用[N];光明日报;2009年
2 姚双云 华中师范大学语言与语言教育研究中心;虚词知识库:中文信息处理的基石[N];中国社会科学报;2011年
3 张波 龙雨;中文信息处理国际学术会议在武汉大学召开[N];中国社会科学院院报;2007年
4 记者 韩晓玲通讯员 张波 龙雨;海内外专家聚焦中文信息处理[N];湖北日报;2007年
5 胡唯元;文字编码新标准:不再为“名”所累[N];科技日报;2006年
6 许伟;金友兵 破局国外办公套件垄断[N];中国企业报;2008年
7 ;浙江天宇信息技术有限公司[N];中国计算机报;2009年
8 中文信息学会课题组;如何提高国产手机汉字输入法的市场竞争力[N];语言文字周报;2007年
9 梵欣;两项信息技术国家标准发布[N];中国包装报;2000年
10 中文信息学会课题组;如何提高国产手机汉字输入法的市场竞争力[N];光明日报;2007年
中国博士学位论文全文数据库 前7条
1 贺前华;汉语自动分词及机器翻译研究[D];华南理工大学;1993年
2 刘磊;概念内涵属性计算研究[D];上海交通大学;2011年
3 王建会;中文信息处理中若干关键技术的研究[D];复旦大学;2004年
4 吴应良;网络计算中的智能信息处理方法研究[D];华南理工大学;2000年
5 梁添才;基于认知机理的汉字智能造字研究[D];华南理工大学;2008年
6 卢建平;基于拓扑学和统计学的无字库汉字智能造字研究[D];华南理工大学;2010年
7 江会星;汉语命名实体识别研究[D];北京邮电大学;2012年
中国硕士学位论文全文数据库 前10条
1 李丹;基于规则与统计的汉语自动分词研究[D];长春工业大学;2010年
2 王敏;基于改进的隐马尔科夫模型汉语词性标注[D];山西大学;2007年
3 党兰学;汉字语法语义智能输入法总体设计与部分实现[D];河南大学;2006年
4 白晓梅;校园网中文搜索引掣系统的设计与实现[D];吉林大学;2006年
5 曹林峰;中文文字差错率统计软件的实现[D];西安电子科技大学;2007年
6 张玉华;基于码本的输入法评测系统的设计和实现[D];苏州大学;2005年
7 杜莹;汉字语法语义智能输入法核心算法及实现技术[D];河南大学;2006年
8 徐瑞;一个中文语义语料库的研究与建设[D];苏州大学;2006年
9 沈威;基于渡越矩阵与语境计算模型的复句关系词的自动标注[D];华中师范大学;2007年
10 罗丽俊;中文信息处理中若干技术的研究与实现[D];辽宁科技大学;2008年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62791813
  • 010-62985026