收藏本站
收藏 | 投稿 | 手机打开
二维码
手机客户端打开本文

汉语统计语言模型的N值分析

张树武  黄泰翼  
【摘要】:N元语言模型(n-gram)作为统计语言处理的主要方法,目前在汉语语言处理(词性标注、字符识别、语音识别等)中已得到广泛的应用。但是,具体N取何值为较优,目前尚没有明确的定论。本文从对汉语短语语法模式的近似表示、对未登录语词的自动检测与重构能力、和实际的音文转换应用系统性能测试三个方面出发,综合比较和分析了基于汉语词的N元语言模型中N值的选择。并得出结论:对于基于真实词的汉语N元语言模型,N的取值范围应介于3至6之间,且N=4为较优。这一结论将有助于汉语统计语言处理的发展。

知网文化
【相似文献】
中国期刊全文数据库 前20条
1 孙那;;《语符学语言模型研究》评介[J];南昌教育学院学报;2011年08期
2 翟舒;韩习武;;汉英机器翻译中的意译和直译应用[J];外语学刊;2011年04期
3 王晓伟;;语篇结构分析的回眸与前瞻[J];安阳工学院学报;2011年03期
4 陈鹏冰;;语义指向研究的新方向——评《现代汉语副词语义指向及其计算机识别研究》[J];湖北师范学院学报(哲学社会科学版);2011年04期
5 王玲娟;李璇;;对外汉语硕士研究生课程设置研究[J];重庆文理学院学报(社会科学版);2011年04期
6 ;[J];;年期
7 ;[J];;年期
8 ;[J];;年期
9 ;[J];;年期
10 ;[J];;年期
11 ;[J];;年期
12 ;[J];;年期
13 ;[J];;年期
14 ;[J];;年期
15 ;[J];;年期
16 ;[J];;年期
17 ;[J];;年期
18 ;[J];;年期
19 ;[J];;年期
20 ;[J];;年期
中国重要会议论文全文数据库 前10条
1 努尔艾力·喀迪尔;彭良瑞;;基于SRILM的阿拉伯和维吾尔文语言模型建立方法[A];少数民族青年自然语言处理技术研究与进展——第三届全国少数民族青年自然语言信息处理、第二届全国多语言知识库建设联合学术研讨会论文集[C];2010年
2 龚彦如;李竹;冯志伟;;英——汉计算语言学术语数据库[A];语言文字应用研究论文集(Ⅰ)[C];1995年
3 林红;胡欣;;最大熵模型的应用[A];新世纪气象科技创新与大气科学发展——中国气象学会2003年年会“地球气候和环境系统的探测与研究”分会论文集[C];2003年
4 龚彦如;李竹;冯志伟;;英-汉计算语言学术语数据库[A];语言文字应用研究论文集(Ⅱ)[C];2004年
5 ;前言[A];内容计算的研究与应用前沿——第九届全国计算语言学学术会议论文集[C];2007年
6 俞士汶;朱学锋;段慧明;张化瑞;;以词义为主轴的综合型语言知识库[A];第六届汉语词汇语义学研讨会论文集[C];2005年
7 俞士汶;王治敏;朱学锋;;文学语言与自然语言理解研究[A];中文信息处理前沿进展——中国中文信息学会二十五周年学术会议论文集[C];2006年
8 ;前言[A];自然语言理解与机器翻译——全国第六届计算语言学联合学术会议论文集[C];2001年
9 张大鲲;孙乐;;ISCAS机器翻译和系统融合评测系统介绍[A];机器翻译研究进展——第四届全国机器翻译研讨会论文集[C];2008年
10 朱学锋;俞士汶;李峰;;汉语语素库的构造及其同语法信息词典的集成[A];世纪之交的中国应用语言学研究——第二届全国语言文字应用学术研讨会论文集[C];1998年
中国博士学位论文全文数据库 前10条
1 王志栋;语用要点识别模型研究[D];清华大学;2008年
2 由丽萍;构建现代汉语框架语义知识库技术研究[D];上海师范大学;2006年
3 屈刚;英汉双语短语对齐[D];上海交通大学;2007年
4 赵春利;形名组合的静态与动态研究[D];暨南大学;2006年
5 陈慧;基于DCC动态流通语料库的中文组织名考察与研究[D];北京语言大学;2008年
6 方向红;基于内涵逻辑的现代汉语连接词及关联句式语义研究[D];上海师范大学;2004年
7 刘水;融入头—修饰词调序模型的短语统计机器翻译方法研究[D];哈尔滨工业大学;2011年
8 王斯日古楞;基于混合策略的汉蒙机器翻译及相关技术研究[D];内蒙古大学;2009年
9 林八鸽;《蒙古语连接形式知识库》的建设[D];内蒙古大学;2009年
10 富涛;面向信息处理的蒙古语简单谓动句句模研究[D];内蒙古大学;2011年
中国硕士学位论文全文数据库 前10条
1 严峻;核查理论的计算机运用[D];南京师范大学;2004年
2 阿米娜木·买买提明;维吾尔标准书面语与口语动词变位形式的对比研究[D];新疆大学;2007年
3 董雪松;建立面向信息处理的词汇认知语义分析模型的尝试[D];黑龙江大学;2007年
4 努尔买买提·依布拉音;现代维吾尔动词语态及动词构词词缀统计分析研究[D];新疆大学;2007年
5 江艳;面向信息处理的介词短语“往+X”的边界识别研究[D];上海师范大学;2009年
6 牧仁高娃;蒙古语语料库标注及相关对策研究[D];内蒙古大学;2008年
7 何向真;多语言电子词典构建[D];西北民族大学;2010年
8 何晓丽;现代汉语动态助词“了”的自动生成研究[D];南京师范大学;2007年
9 李晓婷;论汉语会话中的指称表达[D];吉林大学;2006年
10 傅成宏;现代汉语兼语结构的自动识别[D];南京师范大学;2007年
中国重要报纸全文数据库 前6条
1 本报记者 刘洪宇;当机器听懂了我们的声音[N];辽宁日报;2008年
2 全国政协委员 石锐;建立健全国家民族语言数据库[N];人民政协报;2006年
3 宗河;培养具有创新意识的语言学人才[N];中国教育报;2007年
4 王德春;世界上最大的一套语言学百科全书中国落地[N];文汇报;2008年
5 教育部语信司;语言资源监测与服务论坛举行[N];语言文字周报;2010年
6 罗骥 云南省语言学会常务副会长,云南师范大学文学与新闻传播学院教授,《云南师范大学学报》编辑部主任;中国语言学:面临的问题和发展的动力[N];中国社会科学报;2010年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62982499
  • 010-62783978