收藏本站
《计算机工程》 2011年15期
收藏 | 投稿 | 手机打开
二维码
手机客户端打开本文

基于Viterbi改进算法的高棉语分词研究

蒋艳荣  刘习文  陈耿涛  
【摘要】:采用最大匹配算法对高棉语进行分词准确率较低,且难以正确识别词库中没有的新词。针对该问题,采用改进的Viterbi算法,利用自动机实现音节切分,通过最优选择及剪枝操作提高分词效率,以统计语言模型对未知新词进行数据平滑,提高识别正确率。实验结果表明,改进的Viterbi算法具有较高的分词效率和准确率。

【参考文献】
中国期刊全文数据库 前2条
1 屈刚,陆汝占;基于特征的汉语词性标注模型[J];计算机研究与发展;2003年04期
2 何国斌;赵晶璐;;基于最大匹配的中文分词概率算法研究[J];计算机工程;2010年05期
【共引文献】
中国期刊全文数据库 前10条
1 赵晓凡;胡顺义;;基于正向最大匹配的汉语分词[J];安阳师范学院学报;2010年05期
2 金纯;浅谈计算机自然语言理解[J];浙江中医学院学报;2005年03期
3 夏天,樊孝忠,刘林,骆正华;基于ALICE的汉语自然语言接口[J];北京理工大学学报;2004年10期
4 张同玲;多杰卓玛;;藻饰词语义网络的构建研究[J];电脑开发与应用;2011年07期
5 阿布都克力木·阿不力孜;哈里旦木·阿布都克里木;吐尔根·依布拉音;帕里旦·吐尔逊;艾山·吾买尔;;基于自顶向下算法的维吾尔语句法分析初探[J];电脑知识与技术;2010年05期
6 李霞;;一种小型汉英翻译软件的设计原理及实现[J];福建电脑;2007年03期
7 郑伟发;;一种基于上下文的隐马尔可夫模型的汉语句法分析模型的实现[J];福建电脑;2009年07期
8 刘海峰;王元元;;一种基于统计的汉语切词方法[J];工程地质计算机应用;2006年02期
9 王保民;刘明生;邢飞;;基于语义的语句相似度计算研究[J];河北科技大学学报;2011年04期
10 贺桂华;;语词性标注方法比较[J];怀化学院学报(自然科学);2008年01期
中国重要会议论文全文数据库 前4条
1 通拉嘎;赵小兵;;论蒙古语词素切分的实现[A];中国计算语言学研究前沿进展(2009-2011)[C];2011年
2 胡金柱;沈威;杜超华;;基于规则的复句中的关系词标注探讨[A];第三届学生计算语言学研讨会论文集[C];2006年
3 杜超华;沈威;姚双云;;基于复句语料库的分词系统的研究[A];第三届学生计算语言学研讨会论文集[C];2006年
4 胡金柱;沈威;杜超华;罗进军;;基于渡越矩阵的复句关系词自动标注初探[A];第三届学生计算语言学研讨会论文集[C];2006年
中国博士学位论文全文数据库 前10条
1 舒江波;面向中文信息处理的复句关系词自动标识研究[D];华中师范大学;2011年
2 刘朝涛;中文问答系统中的句型理论及其应用研究[D];重庆大学;2010年
3 杨瑞龙;基于短语特征的Web文档聚类方法研究[D];重庆大学;2010年
4 李良炎;基于词联接的自然语言处理技术及其应用研究[D];重庆大学;2004年
5 徐建锁;知识管理和文本挖掘的若干问题研究[D];天津大学;2004年
6 谷建军;基于叙词表的中医古籍文献领域本体建模方法研究[D];中国中医科学院;2006年
7 许中卫;基于双向搜索的ILP算法构建汉语语义自动切分系统[D];安徽大学;2006年
8 武斌;面向俄文信息处理的机器翻译实验研究[D];中国人民解放军外国语学院;2007年
9 李琼;汉语复句书读前后语言片段的非分句识别[D];华中师范大学;2008年
10 陈博;WEB文本情感分类中关键问题的研究[D];北京邮电大学;2008年
中国硕士学位论文全文数据库 前10条
1 刘洋;基于本体的医保审计知识库构建研究[D];哈尔滨工程大学;2010年
2 蔡蕊;一种新的搜索引擎分词词典的研究[D];山东大学;2010年
3 戴霖;网络舆情信息挖掘关键技术研究与应用[D];浙江工商大学;2011年
4 尉建兴;基于Lucene搜索引擎的研究与应用[D];太原理工大学;2011年
5 郇政永;基于OCR的中文文本校对研究[D];北方工业大学;2011年
6 孙华昱;Lucene在医学影像资源检索平台中的应用[D];沈阳工业大学;2011年
7 石安磊;基于文本相似度评分的中医案例分析系统研究与实现[D];西北大学;2011年
8 李伟;搜索引擎核心词提取系统设计与实现[D];北京交通大学;2011年
9 彭丽莉;关于模式识别中HMM模型的探究[D];重庆师范大学;2011年
10 刘冬雪;搜索引擎检索结果聚类系统的研究与实现[D];北京邮电大学;2011年
【二级参考文献】
中国期刊全文数据库 前5条
1 文庭孝;汉语自动分词研究进展[J];图书与情报;2005年05期
2 李荣陆,王建会,陈晓云,陶晓鹏,胡运发;使用最大熵模型进行中文文本分类[J];计算机研究与发展;2005年01期
3 曾华琳,李堂秋,史晓东;一种基于提取上下文信息的分词算法[J];计算机应用;2005年09期
4 张海营;;全二分快速自动分词算法构建[J];现代图书情报技术;2007年04期
5 熊回香;夏立新;;基于词索引的中文全文检索关键技术及其发展方向[J];中国图书馆学报;2007年04期
【相似文献】
中国期刊全文数据库 前10条
1 赵晓凡;胡顺义;;基于正向最大匹配的汉语分词[J];安阳师范学院学报;2010年05期
2 陈天娥,赵曾贻;基于字、词、词组的中文搜索引擎分词系统[J];武汉工业学院学报;2002年03期
3 袁里驰,钟义信;一种新颖的词性标注模型[J];微电子学与计算机;2005年09期
4 才智杰;才让卓玛;;班智达藏文标注词典设计[J];中文信息学报;2010年05期
5 刘亮亮;林乐宇;;基于查询模板的特定领域中文问答系统的研究与实现[J];江苏科技大学学报(自然科学版);2011年02期
6 张跃,姚天顺;基于结合性自动识别中文姓名[J];小型微型计算机系统;1997年10期
7 肖文辉;;基于MySQL的全文检索系统的研究与应用[J];广西质量监督导报;2008年06期
8 陈健;李广华;;卷积码Viterbi译码的FPGA实现[J];中国新通信;2009年01期
9 肖克曦;;在线英语语料库自动分词和分句的实现[J];电脑知识与技术;2010年28期
10 李家福,张亚非;一种基于概率模型的分词系统[J];系统仿真学报;2002年05期
中国重要会议论文全文数据库 前10条
1 徐润华;陈小荷;;一种利用注疏的《左传》分词新方法[A];中国计算语言学研究前沿进展(2009-2011)[C];2011年
2 李怡平;吴飞;;多语言环境下的分布式互联网分词平台[A];第十六届全国数据库学术会议论文集[C];1999年
3 赵伟;路永刚;吴琼;;一种新的基于BMM和RMM分词方法的研究与实现[A];第二十三届中国数据库学术会议论文集(技术报告篇)[C];2006年
4 徐冰;姚建民;杨沐昀;赵铁军;;汉语分词在机器翻译评价中的影响[A];语言计算与基于内容的文本处理——全国第七届计算语言学联合学术会议论文集[C];2003年
5 陈丽江;;ACL-SIGHAN第一届国际中文分词竞赛评述[A];第二届全国学生计算语言学研讨会论文集[C];2004年
6 李帅;王精业;王丽娟;;基于马尔可夫模型的文本信息提取算法概述[A];图像图形技术与应用进展——第三届图像图形技术与应用学术会议论文集[C];2008年
7 通拉嘎;;汉、蒙、藏、维分词与词性标注技术发展现状研究[A];第五届全国青年计算语言学研讨会论文集[C];2010年
8 周俊;孙啸;;频繁序列算法在生物信息挖掘中的应用[A];第十次中国生物物理学术大会论文摘要集[C];2006年
9 苏新春;顾江萍;;“人”“机”分词差异及规范词典的收词依据——对645条常用词未见于《现汉》的思考[A];中国辞书论集2000[C];2000年
10 刘桐菊;于浩;赵铁军;;基于标引技术的特定领域XML文本自动生成[A];语言计算与基于内容的文本处理——全国第七届计算语言学联合学术会议论文集[C];2003年
中国重要报纸全文数据库 前10条
1 高岚;海量在线做搜索引擎“卖水人”[N];中国计算机报;2004年
2 杨然;东南亚语言纵横谈[N];广西日报;2004年
3 陆元婕;聪明的搜索引擎[N];中国计算机报;2001年
4 本报记者 侯闯;让企业不再“眼花”[N];计算机世界;2003年
5 范宏贵;成年文嘴的越南莽人[N];中国民族报;2004年
6 ;大恒FTR全文检索软硬件解决方案[N];计算机世界;2001年
7 本报记者 张彤;让计算机说中国话[N];网络世界;2004年
8 章森 王伟;搜索引擎的工作机制[N];计算机世界;2006年
9 朱艳;术语解释[N];中国电脑教育报;2000年
10 ;语言信息处理呼唤知识应用[N];中国计算机报;2003年
中国博士学位论文全文数据库 前10条
1 侯锋;中文报业出版的文字质量智能辅助控制技术研究[D];国防科学技术大学;2010年
2 罗义军;通信中Viterbi算法和均衡器的优化设计及低功耗考虑[D];浙江大学;2003年
3 朱聪慧;汉英动词次范畴相关技术的研究[D];哈尔滨工业大学;2009年
4 孙晓;中文词法分析的研究及其应用[D];大连理工大学;2010年
5 刘兴林;中文词汇知识获取算法和语义计算研究及应用[D];华南理工大学;2012年
6 蒋昌金;基于关键词提取的中文网页自动文摘方法研究[D];华南理工大学;2010年
7 刘磊;概念内涵属性计算研究[D];上海交通大学;2011年
8 马建斌;中文Web信息作者同一认定技术研究[D];河北农业大学;2010年
9 屠晓;英文地址图像识别与翻译研究[D];华东师范大学;2011年
10 隋岩;基于“动态流通语料库”的“有效字符串”提取研究[D];北京语言大学;2004年
中国硕士学位论文全文数据库 前10条
1 张海燕;基于分词的中文文本自动分类研究与实现[D];湖南大学;2002年
2 陈思;中文文本投诉信息自动分类系统研究[D];东北师范大学;2010年
3 赵春红;外包数据库模型中文本数据完整性检测方案的研究[D];燕山大学;2010年
4 卢育红;半结构化药物数据智能分类技术研究与系统实现(全日制专业学位)[D];北京交通大学;2011年
5 卢忠良;基于多类的汉语文本自动分类研究[D];中国人民解放军国防科学技术大学;2002年
6 苗玺;中文语料库切分不一致字串分类校验方法研究[D];山西大学;2006年
7 张楚屏;从分词的静词作用看分词在计算机英语中的翻译方法[D];华中科技大学;2006年
8 盛鹏;基于全文过滤的垃圾邮件防范机制[D];昆明理工大学;2006年
9 皮鹏;智能搜索引擎系统的研究[D];哈尔滨工程大学;2002年
10 都菁;基于论坛语料的未登录词自动识别新方法[D];西南大学;2010年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62791813
  • 010-62985026