收藏本站
《计算机应用与软件》 2011年03期
收藏 | 投稿 | 手机打开
二维码
手机客户端打开本文

低频词的中文词性标注研究

仲其智  姚建民  
【摘要】:利用最大熵模型深入探讨了中文词性标注问题。针对低频词的性能差问题,在原有常用特征的基础上,提出了新颖的低频词特征,实验表明,低频词特征的添加能大幅度地提高低频词在测试集的标注准确率,在宾州树库2.0上的实验显示,其准确率从82.93提高到了87.54。在传统的基于句子的词性标注基础上,提出了基于篇章的词性标注,取得了不错的结果。最后,分析了词性标注结果对句法分析性能的影响,在宾州树库2.0上的实验显示,低频词特征和基于篇章的策略使得整个的词性标注准确率和句法分析F1值分别提高了0.60和0.97,说明了词性标注中低频词处理的重要性。
【作者单位】苏州大学计算机科学与技术学院;
【关键词】最大熵模型 低频词 篇章词性标注 句法分析
【分类号】:TP391.1
【正文快照】:
0引言词性标注为文本中的每个词分配词性标记。作为自然语言处理的基础,其准确率将会影响后期的语言处理。例如,文献[9]中指出,采用正确的词性标记,基于宾州树库2.0(CTB2.0),对长度小于或等于40的句子,句法分析性能可达到88.2,而基于自动的词性标记(词性标注准确率为92.5),其

【参考文献】
中国期刊全文数据库 前1条
1 张民,李生,赵铁军,张艳风;统计与规则并举的汉语词性自动标注算法[J];软件学报;1998年02期
【共引文献】
中国期刊全文数据库 前10条
1 付国宏,王晓龙;面向真实文本的汉语词法自动分析系统[J];高技术通讯;1999年12期
2 王海峰,李生,赵铁军;BT863-II汉英机器翻译系统中的兼类处理方法[J];高技术通讯;2000年01期
3 刘小可;王云兰;;一个改进的基于最大熵原理的汉语词性标注系统[J];光盘技术;2007年06期
4 胡俊华,杨波,李金屏;自然语言理解研究略述[J];济南大学学报(社会科学版);2001年05期
5 张虎;郑家恒;;基于分类的汉语语料库词性标注一致性检查[J];计算机工程;2008年08期
6 张虎,郑家恒,刘江;汉语语料库词性标注自动校对方法研究[J];计算机应用;2005年01期
7 段鹰;段文泽;易树平;;相关对象组合匹配模型及解耦递阶智能搜索[J];科研管理;2009年01期
8 郭永辉;吴保民;王炳锡;;一种用于词性标注的相关投票融合策略[J];中文信息学报;2007年02期
9 王丽杰;车万翔;刘挺;;基于SVMTool的中文词性标注[J];中文信息学报;2009年04期
10 付国宏,王晓龙,姜守旭;一种启发式的汉语词性标注算法[J];计算机工程与设计;2000年05期
中国重要会议论文全文数据库 前2条
1 高山;张艳;徐波;宗成庆;韩兆兵;;基于三元统计模型的汉语分词及标注一体化研究[A];自然语言理解与机器翻译——全国第六届计算语言学联合学术会议论文集[C];2001年
2 张艳;徐波;;基于转换的错误学习方法的汉语词性自动标注研究[A];辉煌二十年——中国中文信息学会二十周年学术会议论文集[C];2001年
中国博士学位论文全文数据库 前5条
1 段鹰;复杂生产系统决策若干关键技术研究[D];重庆大学;2009年
2 李军辉;中文句法语义分析及其联合学习机制研究[D];苏州大学;2010年
3 郑逢斌;关于计算机理解自然查询语言的研究[D];西南交通大学;2004年
4 曹海龙;基于词汇化统计模型的汉语句法分析研究[D];哈尔滨工业大学;2006年
5 郭永辉;英汉机器翻译系统关键技术研究[D];解放军信息工程大学;2006年
中国硕士学位论文全文数据库 前10条
1 艳红;基于统计的蒙古文自动词性标注的研究与实现[D];内蒙古师范大学;2010年
2 刘小华;汉英机器翻译中趋向动词的处理[D];大连理工大学;2005年
3 肖创海;课程问答实时系统的设计与实现[D];北京邮电大学;2008年
4 唐超;基于统计模型的汉语词性标注系统的改进方法研究[D];北京邮电大学;2009年
5 方春平;基于FST技术修正中文词性标注的研究与实现[D];中国地质大学(北京);2010年
6 李泽中;最大熵结合词语聚类的中文词性标注研究[D];大连理工大学;2010年
7 张磊;基于最大熵模型的汉语词性标注研究[D];大连理工大学;2008年
8 关宏超;基于统计的开放式汉语自动分词[D];大连理工大学;2002年
9 张虎;汉语语料库词性标注一致性检查及自动校对方法研究[D];山西大学;2005年
10 陈耀东;汉语一体化的句法分析模型的研究[D];国防科学技术大学;2004年
【相似文献】
中国期刊全文数据库 前10条
1 谷波;李茹;刘开瑛;;采用预测策略的Earley算法[J];计算机科学;2010年01期
2 阿布都克力木·阿不力孜;哈里旦木·阿布都克里木;吐尔根·依布拉音;帕里旦·吐尔逊;艾山·吾买尔;;基于自顶向下算法的维吾尔语句法分析初探[J];电脑知识与技术;2010年05期
3 梅丰;孙承杰;孙珂;程明波;林磊;;面向网络文本的中文产品命名实体识别[J];郑州大学学报(理学版);2010年01期
4 崔新波;张琳;;基于招生问答系统的中文依存句法分析[J];现代计算机(专业版);2010年05期
5 何径舟;王厚峰;;基于特征选择和最大熵模型的汉语词义消歧[J];软件学报;2010年06期
6 祁瑞华;杨德礼;胡润波;;基于特征缺失补偿最大熵模型的文本分类[J];情报杂志;2010年05期
7 黄莉;;浅析汉语语言处理中的句法分析方法[J];价值工程;2010年17期
8 周惠巍;黄德根;钱志强;杨元生;;短语结构到依存结构树库转换研究[J];大连理工大学学报;2010年04期
9 陈琴;;跨语言信息检索中双语词典的建立和翻译方法[J];计算机应用与软件;2010年07期
10 雷春雅;郭剑毅;余正涛;毛存礼;张少敏;黄甫;;基于自扩展与最大熵的领域实体关系自动抽取[J];山东大学学报(工学版);2010年05期
中国重要会议论文全文数据库 前10条
1 刘冬青;曹炜;;论成语“望文生义”义入典应当缓行——兼与陈璧耀先生商榷[A];中国辞书学会第六届中青年辞书工作者学术研讨会论文集[C];2010年
2 冯志伟;;机器翻译:从基于规则的技术到基于统计的技术[A];2010年中国翻译职业交流大会论文集[C];2010年
3 单大甫;周斌;黄九鸣;;基于CAAR算法的文本倾向性分析技术[A];全国计算机安全学术交流会论文集·第二十五卷[C];2010年
4 百顺;包晓荣;;面向日蒙机器翻译的机能语分析与译文研究[A];少数民族青年自然语言处理技术研究与进展——第三届全国少数民族青年自然语言信息处理、第二届全国多语言知识库建设联合学术研讨会论文集[C];2010年
5 斯·劳格劳;华沙宝;萨如拉;;基于NFA的蒙古语词法分析算法研究[A];少数民族青年自然语言处理技术研究与进展——第三届全国少数民族青年自然语言信息处理、第二届全国多语言知识库建设联合学术研讨会论文集[C];2010年
6 才藏太;;基于规则的汉藏机器翻译系统中二分法的句法分析方法研究[A];少数民族青年自然语言处理技术研究与进展——第三届全国少数民族青年自然语言信息处理、第二届全国多语言知识库建设联合学术研讨会论文集[C];2010年
7 早克热·卡德尔;艾山·吾买尔;吐尔根·依布拉音;帕里旦·吐尔逊;买热哈巴·艾力;;基于混合策略的维吾尔语名词词干提取系统[A];少数民族青年自然语言处理技术研究与进展——第三届全国少数民族青年自然语言信息处理、第二届全国多语言知识库建设联合学术研讨会论文集[C];2010年
8 康旭珍;李双红;李茹;;框架元素语义核心词自动识别研究[A];第六届全国信息检索学术会议论文集[C];2010年
9 帕里旦·吐尔逊;艾山·吾买尔;吐尔根·依布拉音;早克热·卡德尔;阿力木江·艾沙;;基于最大熵的维吾尔语词性标注模型[A];少数民族青年自然语言处理技术研究与进展——第三届全国少数民族青年自然语言信息处理、第二届全国多语言知识库建设联合学术研讨会论文集[C];2010年
10 艳红;王斯日古楞;;蒙古文词语切分在自动词性标注中的应用[A];少数民族青年自然语言处理技术研究与进展——第三届全国少数民族青年自然语言信息处理、第二届全国多语言知识库建设联合学术研讨会论文集[C];2010年
中国重要报纸全文数据库 前7条
1 记者 潘竑;企业搜索:激活被遗忘的信息财富[N];金融时报;2006年
2 李琨;IBM百度共拓企业搜索[N];中国计算机报;2006年
3 清华大学外语系 许建平;2005年考研英语阅读、翻译备考要点[N];中国教育报;2004年
4 中国科学院计算技术研究所 王 斌;内容为王[N];计算机世界;2004年
5 ;句法语文学科召开工作研讨会[N];中国社会科学院院报;2003年
6 ;语言信息处理呼唤知识应用[N];中国计算机报;2003年
7 记者张璋;中文自然语言资源共享开辟新路[N];科学时报;2003年
中国博士学位论文全文数据库 前10条
1 李旭;基于指纹和语义知识表示的中文文档复制检测方法[D];燕山大学;2010年
2 周浪;中文术语抽取若干问题研究[D];南京理工大学;2010年
3 胡笑羽;中文阅读的副中央凹—中央凹效应研究[D];天津师范大学;2010年
4 寇广增;基于意见挖掘通用框架的情感极性强度模糊性研究[D];武汉大学;2010年
5 李军辉;中文句法语义分析及其联合学习机制研究[D];苏州大学;2010年
6 钟美;基于Web的空间本体构建方法研究[D];武汉大学;2010年
7 钱线;快速精确的结构化机器学习方法研究[D];复旦大学;2010年
8 李济洪;汉语框架语义角色的自动标注技术研究[D];山西大学;2010年
9 付剑锋;面向事件的知识处理研究[D];上海大学;2010年
10 林建方;词搭配抽取及在信息检索中的应用研究[D];哈尔滨工业大学;2010年
中国硕士学位论文全文数据库 前10条
1 慕冰;从《生活大爆炸》看美国情景喜剧的语言特点[D];大连海事大学;2010年
2 刘若杨;“V着(N)+VP”格式再探[D];上海师范大学;2010年
3 马丽丽;英汉机器翻译系统中术语自动翻译技术的研究[D];沈阳航空工业学院;2010年
4 胡永华;英文译文质量自动评测技术的研究[D];沈阳航空工业学院;2010年
5 方春平;基于FST技术修正中文词性标注的研究与实现[D];中国地质大学(北京);2010年
6 刘明岩;面向语义关系发现的文本挖掘研究[D];南京理工大学;2010年
7 李俊;限定领域自动问答技术研究[D];北方工业大学;2010年
8 黄波;中文问答系统中答案抽取的研究与实现[D];吉林大学;2010年
9 黄洁;基于语料库的商务英语词汇特点的研究[D];大连海事大学;2010年
10 范威;基于自然语言理解的高速公路路网查询系统[D];山东大学;2010年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62791813
  • 010-62985026