收藏本站
《中文信息学报》 1993年01期
收藏 | 投稿 | 手机打开
二维码
手机客户端打开本文

统计语言模型及汉语音字转换的一些新结果

郭进  
【摘要】:汉语音字转换是一个重要而困难的问题。语料库语言学为我们提供了新思路。作者们通过建立统计语言模型,将基于语料库的方法与传统的基于规则的方法结合,研制了THED新一代音字转换系统。该系统对随机抽取的新华社新闻语料有不低于95%的带调音节和国标汉字的转换正确率。本文侧重报道该系统在汉语音字转换方面及与此相关的汉语切词和词性标注方面的一些实验结果,也简要介绍该系统在语料库应用方面的一些思路。
【作者单位】清华大学电子工程系

【引证文献】
中国期刊全文数据库 前7条
1 高军,陈锡先;无监督的动态分词方法[J];北京邮电大学学报;1997年04期
2 钟文青,徐秉铮;音字转换系统中字词频的智能调整[J];华南理工大学学报(自然科学版);1995年10期
3 张瑞强,王作英,陆大 ;关于汉语音字转换中语言模型零概率的问题[J];电子学报;1998年08期
4 张子荣,初敏;解决多音字字-音转换的一种统计学习方法[J];中文信息学报;2002年03期
5 陈一凡,朱亮;汉字键盘输入智能处理软件综述[J];中文信息学报;2003年02期
6 杨浩荣,孙甲松,王作英;基于连续语音识别算法和词树约束的汉语词组语音识别[J];中文信息学报;1998年04期
7 万建成;自然语言句法分析的有界深度控制和早期剪枝[J];软件学报;1995年06期
中国重要会议论文全文数据库 前3条
1 陈一凡;朱亮;;汉字键盘输入智能处理软件综述[A];中国中文信息学会汉字编码专业委员会第八届年会、中国计算机学会中文信息技术专业委员会第六届年会暨汉字输入技术与应用研讨会论文集[C];2002年
2 郑敏;蔡莲红;;一种新的基于规则的多音字自动注音方法[A];第二届全国学生计算语言学研讨会论文集[C];2004年
3 高军;陈锡先;;汉语语料中对未知词汇的自动提取[A];1998年中国智能自动化学术会议论文集(下册)[C];1998年
中国博士学位论文全文数据库 前1条
1 宗成庆;音字转换与句子规范化处理研究[D];中国科学院研究生院(计算技术研究所);1998年
中国硕士学位论文全文数据库 前4条
1 戴石麟;汉字编码输入法研究[D];重庆大学;2005年
2 邓晶;整体/高频优先原理[D];中国科学院研究生院(计算技术研究所);1996年
3 潘阿荣;基于Windows Mobile的智能手机汉字输入法研究[D];哈尔滨工业大学;2006年
4 曲卫华;手机中文输入法的设计与实现[D];中国地质大学(北京);2007年
【参考文献】
中国期刊全文数据库 前2条
1 唐武,杨行峻,郭进;汉语音字转换中同音字(词)的概率后处理[J];中文信息学报;1992年02期
2 俞士汶;中文输入中语法分析技术的应用[J];中文信息学报;1988年03期
【共引文献】
中国期刊全文数据库 前10条
1 张锋,樊孝忠;基于最大熵模型的交集型切分歧义消解[J];北京理工大学学报;2005年07期
2 孙茂松,邹嘉彦;汉语自动分词研究评述[J];当代语言学;2001年01期
3 冯学文,苗丹民,皇甫恩,宋国萍,刘旭峰,陈足怀;高频(1级)汉字负启动效应的发生[J];第四军医大学学报;2000年06期
4 蔡勇智;基于最大匹配分词算法的中文词语粗分模型[J];福建电脑;2005年09期
5 钟文青,徐秉铮;音字转换系统中字词频的智能调整[J];华南理工大学学报(自然科学版);1995年10期
6 王锡江;王启祥;陈家骏;;基于邻接知识的汉语自动分词系统[J];计算机研究与发展;1992年11期
7 刘群,张华平,俞鸿魁,程学旗;基于层叠隐马模型的汉语词法分析[J];计算机研究与发展;2004年08期
8 殷峰,何克抗;语句级拼音┐汉字转换系统的设计与实现[J];计算机研究与发展;1997年05期
9 陈其晖,应志伟,柴佩琪;基于歧义二叉树的汉语分词方法[J];计算机辅助工程;1999年04期
10 刘壁松,李春平;一个可扩展的文本分类系统的设计与实现[J];计算机工程与应用;2004年30期
中国重要会议论文全文数据库 前2条
1 安雄;;《一级阅读字表》的编制及说明[A];第八届国际汉语教学讨论会论文选[C];2005年
2 Luning Ji, Qin Lu, Wenjie Li, YiRong Chen The Department of Computing, The Hong Kong Polytechnic University, Hong Kong, China;A Comparative Study of the Effect of Word Segmentation On Chinese Terminology Extraction[A];第20届亚太地区语言、信息和计算国际会议论文集[C];2006年
中国博士学位论文全文数据库 前10条
1 余传明;基于本体的语义信息系统研究[D];武汉大学;2005年
2 贺前华;汉语自动分词及机器翻译研究[D];华南理工大学;1993年
3 冯敏萱;论汉英平行语料的平行处理[D];南京师范大学;2006年
4 张亮;面向开放域的中文问答系统问句处理相关技术研究[D];南京理工大学;2006年
5 宗成庆;音字转换与句子规范化处理研究[D];中国科学院研究生院(计算技术研究所);1998年
6 张华平;语言浅层分析与句子级新信息检测研究[D];中国科学院研究生院(计算技术研究所);2005年
7 郭永辉;英汉机器翻译系统关键技术研究[D];解放军信息工程大学;2006年
8 黄魏;植物营养诊断自动应答网络专家系统研究[D];华中农业大学;2007年
9 孙强;现代汉语多音字研究[D];四川大学;2007年
10 常娥;古籍智能处理技术研究[D];南京农业大学;2007年
中国硕士学位论文全文数据库 前10条
1 何燕;任意类型的未登录词的识别研究[D];北京语言文化大学;2000年
2 娄(王廷);现代汉语分词系统通用性设计及切分歧义处理[D];北京工业大学;2000年
3 黄艳;面向数字化产品的自然语言查询技术的研究与开发[D];浙江大学;2002年
4 缪晓阳;WebCM:一种基于搜索引擎的网络内容监控系统的研究[D];浙江大学;2002年
5 廉竹钧;汉语组合型切分歧义字段消歧方法研究[D];北京语言文化大学;2002年
6 马东坡;Internet中文智能搜索引擎汉语自动分词系统设计[D];广西师范大学;2002年
7 胡蓉;中文Web文档倾向性自动分类研究[D];四川大学;2003年
8 刘建舟;术语自动抽取系统的设计及关键技术研究[D];华中师范大学;2004年
9 于爱军;NERMS中基于Internet的搜索引擎研究与实现[D];吉林大学;2004年
10 梅胜;基于SVM的多层次大类别数文本分类系统(HJ-TCM)的设计与实现[D];南京理工大学;2004年
【同被引文献】
中国期刊全文数据库 前10条
1 都云琪,肖诗斌;基于支持向量机的中文文本自动分类研究[J];计算机工程;2002年11期
2 邹涛,王继成,黄源,张福炎;中文文档自动分类系统的设计与实现[J];中文信息学报;1999年03期
3 叶新明;徐进鸿;;中文文献自动分类研究[J];情报科学;1992年05期
4 成颖,史九林;自动分类研究现状与展望[J];情报学报;1999年01期
5 田军;图书自动分类的数学建模及实现[J];图书情报工作;2001年09期
6 王闰强,胡铁军;中文文本自动分类研究进展[J];医学情报工作;2002年06期
7 朱靖波,姚天顺;中文信息自动抽取[J];东北大学学报(自然科学版);1998年01期
8 王永成,许慧敏;OA-1.4 版中文自动摘要系统[J];高技术通讯;1998年01期
9 李蕾,钟义信,郭祥昊;面向特定领域的理解型中文自动文摘系统[J];计算机研究与发展;2000年04期
10 陆玉昌,鲁明羽,李凡,周立柱;向量空间法中单词权重函数的分析和构造[J];计算机研究与发展;2002年10期
中国重要会议论文全文数据库 前1条
1 黄旭;朱艳琴;罗喜召;;重复串特征提取算法在不良信息检测中的应用[A];第三届全国信息检索与内容安全学术会议论文集[C];2007年
中国博士学位论文全文数据库 前4条
1 薛德军;中文文本自动分类中的关键问题研究[D];清华大学;2004年
2 李荣陆;文本分类及其相关技术研究[D];复旦大学;2005年
3 曹海龙;基于词汇化统计模型的汉语句法分析研究[D];哈尔滨工业大学;2006年
4 彭涛;面向专业搜索引擎的主题爬行技术研究[D];吉林大学;2007年
中国硕士学位论文全文数据库 前10条
1 崔彩霞;基于支持向量机的文本分类方法研究[D];山西大学;2005年
2 马忠宝;基于支持向量机的中文文本分类系统研究[D];武汉理工大学;2006年
3 王小燕;文本分类相关技术与应用研究[D];西北大学;2007年
4 袁彦芹;基于支持向量机的大规模文本分类研究与设计[D];山东师范大学;2007年
5 朱晓旭;手持设备汉字输入法自动生成技术研究与实现[D];苏州大学;2005年
6 周克兰;汉字数码输入法评价体系研究[D];苏州大学;2005年
7 刘必强;基于Smartphone的智能手机输入法的研究与实现[D];哈尔滨工业大学;2006年
8 曲卫华;手机中文输入法的设计与实现[D];中国地质大学(北京);2007年
9 徐晓琦;基于混合策略的中文文本过滤技术研究[D];华中师范大学;2006年
10 朱祥玉;基于向量空间模型的自适应文本过滤系统研究[D];山东师范大学;2006年
【二级引证文献】
中国期刊全文数据库 前9条
1 沈军;一个面向受限领域的汉语人机接口系统[J];东南大学学报;1996年05期
2 范明;胡国平;王仁华;;汉语字音转换中的多层面多音字读音消歧[J];计算机工程与应用;2006年02期
3 蔡增玉,谷文祥;汉字双向有穷自动机的研究[J];中文信息学报;2005年03期
4 顾平;朱巧明;李培峰;钱培德;;智能型汉字数码输入技术的研究[J];中文信息学报;2006年04期
5 姜维;关毅;王晓龙;刘秉权;;基于支持向量机的音字转换模型[J];中文信息学报;2007年02期
6 沈军,顾冠群;CI MS领域中面向问题的自然语言人机接口研究[J];微机发展;2002年06期
7 孙文庆,刘秉权,肖镜辉;基于内存映射文件的数据共享技术研究与应用[J];微计算机应用;2005年02期
8 张春霞,郝天永;汉语自动分词的研究现状与困难[J];系统仿真学报;2005年01期
9 王力红,杨剑;一种适合于数据库汉语接口的低限制扩充LR句法分析方法[J];小型微型计算机系统;1998年07期
中国重要会议论文全文数据库 前2条
1 胡国平;陈志刚;王仁华;;基于规则及SVM权值训练的汉语多音字自动消歧研究[A];Advances in Computation of Oriental Languages--Proceedings of the 20th International Conference on Computer Processing of Oriental Languages[C];2003年
2 赖兴邦;周昌乐;;宋词字-音转换研究及系统实现[A];中国计算技术与语言问题研究——第七届中文信息处理国际会议论文集[C];2007年
中国博士学位论文全文数据库 前2条
1 乔林;基于多关键词检索的企业竞争情报搜集方法研究[D];中国科学技术大学;2006年
2 刘政怡;中文整句智能输入方法研究[D];安徽大学;2007年
中国硕士学位论文全文数据库 前10条
1 陈志刚;基于语音识别技术的交互绘图系统的设计与实现[D];大连理工大学;2003年
2 任承业;校园信息系统中数据挖掘的研究与应用[D];暨南大学;2003年
3 江友辉;PSC单字、词语的计算机自动对比分析系统设计研究[D];云南师范大学;2003年
4 吴海辉;笔画码汉字输入法软件设计与实现[D];安徽大学;2004年
5 关真珍;基于半督导机器学习的分词算法的设计与实现[D];华中科技大学;2004年
6 王朔;基于Chart算法的句法分析系统的设计与实现[D];湖南大学;2005年
7 顾平;一种智能型数码输入技术的研究与设计[D];苏州大学;2005年
8 朱素英;基于语音的图书资料查询汉语接口研究[D];国防科学技术大学;2005年
9 戴石麟;汉字编码输入法研究[D];重庆大学;2005年
10 王会芬;基于Web的网页聚类系统的研究与实现[D];天津大学;2005年
【二级参考文献】
中国期刊全文数据库 前3条
1 潘凌云,杨长生;拼音、汉字计算机自动转换系统[J];计算机学报;1990年04期
2 汤建华,徐近霈;利用句法、语义循环递归网络实现汉语拼音→汉字转换[J];中文信息学报;1989年04期
3 丁天怀 ,汉字乐 ,蓝安东;汉语拼音词汇输入处理系统[J];中文信息学报;1989年01期
【相似文献】
中国期刊全文数据库 前10条
1 蒋艳荣;刘习文;陈耿涛;;基于Viterbi改进算法的高棉语分词研究[J];计算机工程;2011年15期
2 李亚丽;徐为群;颜永红;;语义类的提取及其在语音搜索系统中的应用[J];声学学报;2011年05期
3 李文;李淼;梁青;朱海;应玉龙;乌达巴拉;;基于短语统计机器翻译模型蒙古文形态切分[J];中文信息学报;2011年04期
4 张聪品;赵理莉;;统计模型中附加语言学规则的蒙古语词法分析[J];计算机工程与设计;2011年08期
5 赵晓凡;胡顺义;刘永革;;CRF模型中参数f在字标注汉语分词中的适用性研究[J];郑州大学学报(工学版);2011年04期
6 杨皓东;江凌;李国俊;;国内自然语言处理研究热点分析——基于共词分析[J];图书情报工作;2011年10期
7 ;[J];;年期
8 ;[J];;年期
9 ;[J];;年期
10 ;[J];;年期
中国重要会议论文全文数据库 前10条
1 袁里驰;钟义信;;统计语言模型在语言信息处理中的应用[A];中国自动化学会、中国仪器仪表学会2004年西南三省一市自动化与仪器仪表学术年会论文集[C];2004年
2 袁里驰;钟义信;;一种新颖的词聚类算法[A];中国自动化学会、中国仪器仪表学会2004年西南三省一市自动化与仪器仪表学术年会论文集[C];2004年
3 罗智勇;宋柔;荀恩东;;一种基于可信度的人名识别方法[A];第二届全国学生计算语言学研讨会论文集[C];2004年
4 牟晓隆;詹津明;郑方;吴文虎;;基于修正退化频度估计算法的n-gram语言模型[A];第五届全国人机语音通讯学术会议论文集[C];1998年
5 郭丽;蔡东风;季铎;白宇;;统计与语义相融合的词语相似度计算[A];第四届全国学生计算语言学研讨会会议论文集[C];2008年
6 黄昌宁;高剑峰;李沐;;对自动分词的反思[A];语言计算与基于内容的文本处理——全国第七届计算语言学联合学术会议论文集[C];2003年
7 赵军;敖其尔;吉仁尼格;巩政;葡萄;陈建东;;基于统计语言模型蒙古文词汇分析校正器的设计与实现[A];民族语言文字信息技术研究——第十一届全国民族语言文字信息学术研讨会论文集[C];2007年
8 曹鹤;裴明涛;贾云得;;一种基于上下文的手写体汉字识别候选集选取方法[A];NCIRCS2004第一届全国信息检索与内容安全学术会议论文集[C];2004年
9 王洁;荀恩东;罗智勇;宋柔;;现代汉语多音词自动标音研究[A];全国第八届计算语言学联合学术会议(JSCL-2005)论文集[C];2005年
10 乔林;黄维通;孟威;;一种改进的知网系统词语相似度计算方法[A];全国第八届计算语言学联合学术会议(JSCL-2005)论文集[C];2005年
中国博士学位论文全文数据库 前10条
1 文娟;统计语言模型的研究与应用[D];北京邮电大学;2010年
2 刘政怡;中文整句智能输入方法研究[D];安徽大学;2007年
3 高红;基于统计语言模型的汉语浅层分析研究[D];大连理工大学;2007年
4 田萱;基于上下文的信息检索关键技术研究[D];中国人民大学;2007年
5 姜维;统计中文词法分析及其强化学习机制的研究[D];哈尔滨工业大学;2007年
6 马瑞;非限制手写字符分割中相关技术与算法的研究[D];南京理工大学;2007年
7 吴应良;网络计算中的智能信息处理方法研究[D];华南理工大学;2000年
8 陈博;WEB文本情感分类中关键问题的研究[D];北京邮电大学;2008年
9 丁国栋;基于统计语言建模的信息检索及相关研究[D];中国科学院研究生院(计算技术研究所);2006年
10 何慧;WEB文本挖掘中关键问题的研究[D];北京邮电大学;2009年
中国硕士学位论文全文数据库 前10条
1 翟明新;统计语言模型平滑技术和压缩技术的研究与实现[D];西安电子科技大学;2012年
2 代建英;汉语自动分词系统的研究与实现[D];重庆大学;2005年
3 甄天桥;基于统计和潜在语义分析的混合语言模型的研究[D];哈尔滨工业大学;2007年
4 刘志文;基于trigger对的长距离蒙古语语言模型的研究[D];内蒙古大学;2008年
5 张美香;贝叶斯文本分类器的研究与改进[D];太原理工大学;2005年
6 黄珺;统计和规则相结合的语言模型在中文输入法中的应用研究[D];西安电子科技大学;2008年
7 张国强;层次化蒙古语语言模型的构建研究[D];内蒙古大学;2008年
8 张强;大词汇量连续语音识别系统的统计语言模型应用研究[D];西南交通大学;2009年
9 黄永文;基于互信息的统计语言模型平滑技术[D];重庆大学;2005年
10 杨宾伟;基于概念的信息检索模型研究[D];电子科技大学;2006年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62791813
  • 010-62985026