收藏本站
《清华大学学报(自然科学版)》 2000年09期
收藏 | 投稿 | 手机打开
二维码
手机客户端打开本文

基于隐Markov模型的汉语词类自动标注的实验研究

孙茂松  卢红娜  邹嘉彦  
【摘要】:汉语词类自动标注技术在中文信息处理现实应用中占据着十分重要的位置。论文在经过人工分词和词类标注的大规模汉语语料库的支持下 ,通过一系列对比实验 ,对基于隐 Markov模型的汉语词类自动标注算法进行了系统的考察 ,并得出结论 :1Bigram模型的“性能价格比”较 Tri-gram模型更令人满意 ;2以 7万词次左右的标注语料库训练 Bigram模型即已基本够用 (此时 ,兼类词词类标注正确率及文本词类标注正确率分别可达 93%和 97%以上 ) ;3Bi-gram模型对不同领域具有一定的适应性。这些结论对设计实用型汉语词类自动标注系统具有指导意义。

【引证文献】
中国期刊全文数据库 前4条
1 张磊;张代远;;中文分词算法解析[J];电脑知识与技术;2009年01期
2 王东海;赵伟;陈洁;梁贺;;基于隐Markov模型汉语词性自动标注的若干分析与改进[J];长春工业大学学报(自然科学版);2007年01期
3 尼加提·纳吉米;买合木提·买买提;吐尔根·依布拉音;;基于N元模型的维吾尔语词性标注实验研究[J];计算机工程与应用;2012年25期
4 苏俊峰;祁坤钰;本太;;基于HMM的藏语语料库词性自动标注研究[J];西北民族大学学报(自然科学版);2009年01期
中国重要会议论文全文数据库 前1条
1 隋岩;张普;;基于“动态流通语料库”进行“有效字符串”提取的初步研究[A];自然语言理解与机器翻译——全国第六届计算语言学联合学术会议论文集[C];2001年
中国博士学位论文全文数据库 前2条
1 隋岩;基于“动态流通语料库”的“有效字符串”提取研究[D];北京语言大学;2004年
2 王志栋;语用要点识别模型研究[D];清华大学;2008年
中国硕士学位论文全文数据库 前10条
1 王东亮;基于条件随机场模型的中文人名识别的研究[D];大连理工大学;2010年
2 黄勇杰;基于统计NLP技术的甲骨卜辞的分析研究[D];华东师范大学;2010年
3 张海燕;基于分词的中文文本自动分类研究与实现[D];湖南大学;2002年
4 钱揖丽;中文文本分词及词性标注自动校对方法研究[D];山西大学;2003年
5 王广正;基于知网语义相关度计算的汉语自动分词方法的研究[D];云南师范大学;2006年
6 张卫;中文词性标注的研究与实现[D];南京师范大学;2007年
7 孔海霞;基于最大熵的汉语词性标注[D];大连理工大学;2007年
8 卢杰;基于中文文字情感识别系统的研究[D];西华大学;2008年
9 张磊;基于最大熵模型的汉语词性标注研究[D];大连理工大学;2008年
10 郭庆贺;中文文本姓名识别的研究[D];东北师范大学;2009年
【同被引文献】
中国期刊全文数据库 前10条
1 蔡曙山;;论符号学三分法对语言哲学和语言逻辑的影响[J];北京大学学报(哲学社会科学版);2006年03期
2 王志良;人工心理学──关于更接近人脑工作模式的科学[J];北京科技大学学报;2000年05期
3 许云,樊孝忠,张锋;基于知网的语义相关度计算[J];北京理工大学学报;2005年05期
4 田新华;编辑的语言文字观[J];北京理工大学学报(社会科学版);2003年03期
5 王玉洁,王志良,陈锋军,王国江,王玉锋;基于隐马尔可夫模型的情感建模[J];北京农学院学报;2005年01期
6 何嘉;陈琳;;基于神经网络汉语分词模型的优化[J];成都信息工程学院学报;2006年06期
7 杨丹;曹俊;;基于Web2.0的社会性标签推荐系统[J];重庆工学院学报(自然科学版);2008年07期
8 钟焯荣;曾鸣;何斌斌;徐春笙;李涛;张波;;互联网模式WEB2.0的分析与研究[J];重庆科技学院学报(自然科学版);2007年01期
9 杨建军;;汉语古籍语料库的建立原则[J];辞书研究;2006年02期
10 李跃民;王浩;赵生慧;;有词典中文分词算法研究[J];滁州学院学报;2008年03期
中国博士学位论文全文数据库 前1条
1 周雅倩;最大熵方法及其在自然语言处理中的应用[D];复旦大学;2005年
中国硕士学位论文全文数据库 前10条
1 朱珣;中文自动分词系统的研究[D];华中师范大学;2004年
2 梁以敏;基于统计的汉语词性标注方法的研究[D];大连理工大学;2004年
3 朱代华;基于分词技术的智能答疑系统[D];重庆大学;2004年
4 罗小虎;基于蚁群算法的汉语自动分词的研究与实现[D];苏州大学;2004年
5 王源媛;中文未登录名词短语的识别方法研究[D];重庆大学;2004年
6 谢坤;基于多Agent的和谐人机交互系统的研究与构建[D];天津师范大学;2005年
7 庞文俊;基于EHMM模型的人脸识别算法研究[D];西北工业大学;2006年
8 黄立冬;基础教育资源搜索引擎中的中文分词技术研究[D];南京师范大学;2006年
9 张卫;中文词性标注的研究与实现[D];南京师范大学;2007年
10 罗雪兵;汉语组块识别的研究[D];大连理工大学;2007年
【二级引证文献】
中国期刊全文数据库 前10条
1 张磊;张代远;;中文分词算法解析[J];电脑知识与技术;2009年01期
2 桑书娟;王庆喜;;一种结合正向最大匹配法和互信息的中文分词算法[J];计算机光盘软件与应用;2012年07期
3 扎西多杰;安见才让;;基于HMM藏文词性标注的研究与实现[J];计算机光盘软件与应用;2012年12期
4 贺桂华;;语词性标注方法比较[J];怀化学院学报(自然科学);2008年01期
5 曹文华;孙丽萍;李志辉;;基于PHP技术的木材干燥专家知识查询系统[J];机电产品开发与创新;2010年01期
6 申庆永;张建忠;何云;杨洁;;中文垃圾邮件过滤系统中的实时分词算法设计[J];计算机工程与应用;2007年03期
7 徐济成;李绍稳;张友华;辜丽川;;面向茶学领域本体的概念自动提取方法研究[J];农业网络信息;2010年08期
8 刘华;;一种快速获取领域新词语的新方法[J];中文信息学报;2006年05期
9 史晓东;卢亚军;;央金藏文分词系统[J];中文信息学报;2011年04期
10 高淑琴;;Web文本分类技术研究现状述评[J];图书情报知识;2008年03期
中国重要会议论文全文数据库 前1条
1 通拉嘎;;汉、蒙、藏、维分词与词性标注技术发展现状研究[A];第五届全国青年计算语言学研讨会论文集[C];2010年
中国博士学位论文全文数据库 前7条
1 刘华;基于关键短语的文本内容标引研究[D];北京语言大学;2005年
2 于满泉;面向人物追踪的知识挖掘研究[D];中国科学院研究生院(计算技术研究所);2006年
3 史艳岚;基于中国主流报纸动态流通语料库的对外汉语报刊新闻主题词群及相关研究[D];北京语言大学;2006年
4 谢学敏;基于动态流通语料库(DCC)的流行语释义信息自动提取研究[D];北京语言大学;2006年
5 宗校军;中文网页定题采集及分类研究[D];华中科技大学;2006年
6 郭勇;基于语义的网络知识获取相关技术研究[D];国防科学技术大学;2007年
7 朱锁玲;命名实体识别在方志内容挖掘中的应用研究[D];南京农业大学;2011年
中国硕士学位论文全文数据库 前10条
1 张军珲;基于统计的常用汉语副词用法自动识别研究[D];郑州大学;2010年
2 刘靖媛;个性搜索引擎中用户兴趣模型研究[D];哈尔滨工程大学;2010年
3 徐济成;面向农业领域的本体学习建模研究[D];安徽农业大学;2010年
4 陈旭;地理编码引擎的设计与实现[D];辽宁工程技术大学;2009年
5 刘伟丽;基于粒子群算法和支持向量机的中文文本分类研究[D];河南工业大学;2010年
6 汪兆鹏;面向盲人的图片自动描述系统的研究与实现[D];浙江大学;2011年
7 付敏;一个改进的中文分词算法及其在Lucene中的应用[D];华中科技大学;2010年
8 谢晓燕;基于眼动技术和动态流通语料库(DCC)的汉语阅读注视块研究[D];北京语言大学;2005年
9 柯慧燕;Web文本分类研究及应用[D];武汉理工大学;2006年
10 戴姗;基于DCC三年经济日报语料的面向国际大企业商务领域词语统计方法研究[D];北京语言大学;2007年
【相似文献】
中国期刊全文数据库 前10条
1 陈明远,管汀鹭;打字能比说话更快——几种高速键盘的设计[J];自然杂志;1980年08期
2 唐亚伟;亚伟中文速录机的诞生与应用[J];中文信息;1994年05期
3 胡宜课;信息高速公路与中文信息处理技术[J];计算机工程;1996年S1期
4 张俊林;曲为民;杜林;孙玉芳;;跨语言信息检索研究进展[J];计算机科学;2004年07期
5 罗燕;中文信息检索系统中的自然语言理解技术研究[J];图书情报工作;2005年04期
6 谢谦;芮建武;吴健;;编码字符集标准及分类研究[J];中文信息学报;2006年05期
7 陈丹;李宁;李亮;;古文字的联机手写识别研究[J];北京机械工业学院学报;2008年04期
8 林浩;韩冰;杨乐华;;一种基于改进最大匹配快速中文分词算法[J];科技创新导报;2009年09期
9 吴新年;数字图书馆技术之进展[J];图书与情报;2000年02期
10 高定国,龚育昌;现代藏字全集的属性统计研究[J];中文信息学报;2005年01期
中国重要会议论文全文数据库 前10条
1 ;中国中文信息学会交流材料[A];2011年网络学术交流研讨会交流材料[C];2011年
2 孙玉芳;;中文信息处理与国家信息化建设[A];面向21世纪的科技进步与社会经济发展(上册)[C];1999年
3 宋京伟;郭云;梅秀庄;;基于HMM方法对变转速变载荷工况下滚动轴承的故障诊断[A];设备监测与诊断技术及其应用——第十二届全国设备监测与诊断学术会议论文集[C];2005年
4 陈文亮;朱靖波;吕学强;姚天顺;;词性标注规则的获取和优化[A];第一届学生计算语言学研讨会论文集[C];2002年
5 ;前言[A];中文信息处理前沿进展——中国中文信息学会二十五周年学术会议论文集[C];2006年
6 刘春荣;;我国当务之急是解决中文书写方式的根本变革[A];中国中文信息学会汉字编码专业委员会第九届年会暨学术研讨会论文集[C];2011年
7 诺明花;张立强;刘汇丹;吴健;丁治明;;汉藏短语抽取[A];第五届全国青年计算语言学研讨会论文集[C];2010年
8 莫锦贤;马常楼;;文本文件转换成语音文件及其合成输出[A];第二届全国人机语音通讯学术会议论文集[C];1992年
9 李毅;亢世勇;孙茂松;孙道功;;基于奥运语料的语义成分标注规范[A];全国第八届计算语言学联合学术会议(JSCL-2005)论文集[C];2005年
10 乐明;冯志伟;;篇章修辞结构树库概述[A];全国第八届计算语言学联合学术会议(JSCL-2005)论文集[C];2005年
中国重要报纸全文数据库 前10条
1 记者 梁捷;我国中文信息处理技术从实验室走向全面应用[N];光明日报;2009年
2 姚双云 华中师范大学语言与语言教育研究中心;虚词知识库:中文信息处理的基石[N];中国社会科学报;2011年
3 倪光南;活力重现的中文信息处理[N];计算机世界;2001年
4 齐悦;速记界泰斗唐亚伟 获中文信息处理领域最高科技奖[N];中国质量报;2006年
5 张波 龙雨;中文信息处理国际学术会议在武汉大学召开[N];中国社会科学院院报;2007年
6 记者 段佳;中文信息处理技术加速前行[N];大众科技报;2009年
7 记者 韩晓玲通讯员 张波 龙雨;海内外专家聚焦中文信息处理[N];湖北日报;2007年
8 本报记者 毛国兵 通讯员 岚宇;亚伟速录:实现中文信息处理产业化的自主品牌[N];中国贸易报;2008年
9 胡唯元;文字编码新标准:不再为“名”所累[N];科技日报;2006年
10 本报记者 关逸民;中文速录成为自主核心技术产业[N];中国信息报;2006年
中国博士学位论文全文数据库 前10条
1 薛斌党;嵌入式隐Markov模型和神经网络人脸识别[D];大连理工大学;2002年
2 叶大鹏;基于2D-HMM的旋转机械故障诊断方法及其应用研究[D];浙江大学;2004年
3 郭浩;基于嵌入式隐Markov模型的指纹分类和匹配研究[D];大连理工大学;2004年
4 王勇献;蛋白质二级结构预测的模型与方法研究[D];国防科学技术大学;2004年
5 曾剑平;基于模糊集的自适应伪装入侵检测算法及其在ASP服务安全中的应用研究[D];厦门大学;2006年
6 冯长建;HMM动态模式识别理论、方法以及在旋转机械故障诊断中的应用[D];浙江大学;2002年
7 王华;预见式自适应软件体系结构的研究[D];浙江大学;2009年
8 晏春;基因剪接的信号序列分析和相关特征研究[D];国防科学技术大学;2006年
9 陈芳炯;信道盲辨识、盲均衡理论及应用研究[D];华南理工大学;2002年
10 邹凌云;外膜蛋白序列和结构辨识相关问题研究[D];国防科学技术大学;2008年
中国硕士学位论文全文数据库 前10条
1 陶东成;基于Linux和XIM协议的中文输入法服务器的实现及其应用[D];苏州大学;2004年
2 罗忠毅;数字化中医古籍的理想模式及其相关问题研究[D];成都中医药大学;2005年
3 王敏;基于改进的隐马尔科夫模型汉语词性标注[D];山西大学;2007年
4 党兰学;汉字语法语义智能输入法总体设计与部分实现[D];河南大学;2006年
5 傅成宏;现代汉语兼语结构的自动识别[D];南京师范大学;2007年
6 刘桂梅;周有光语文改革思想研究[D];山东师范大学;2005年
7 张玉华;基于码本的输入法评测系统的设计和实现[D];苏州大学;2005年
8 杜莹;汉字语法语义智能输入法核心算法及实现技术[D];河南大学;2006年
9 徐瑞;一个中文语义语料库的研究与建设[D];苏州大学;2006年
10 白晓梅;校园网中文搜索引掣系统的设计与实现[D];吉林大学;2006年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62791813
  • 010-62985026