收藏本站
《软件学报》 2000年04期
收藏 | 投稿 | 手机打开
二维码
手机客户端打开本文

基于统计的汉语词性标注方法的分析与改进

魏欧  吴健  孙玉芳  sonata.iscas.ac.cn  
【摘要】:从词性概率矩阵与词汇概率矩阵的结构和数值变化等方面 ,对目前常用的基于统计的汉语词性标注方法中训练语料规模与标注正确率之间所存在的非线性关系作了分析 .为了充分利用训练语料库 ,提高标注正确率 ,从利用词语相关的语法属性和加强对未知词的处理两个方面加以改进 ,提高了标注性能 .封闭测试和开放测试的正确率分别达到 96.5%和 96% .

手机知网App
【引证文献】
中国期刊全文数据库 前9条
1 魏欧,孙玉芳;基于非监督训练的汉语词性标注的实验与分析[J];计算机研究与发展;2000年04期
2 高升,王晓龙;语句级汉字输入系统中语义规则研究[J];计算机工程与应用;2003年04期
3 高升,徐志明;统计语言模型中词的自动聚类技术研究[J];计算机工程与应用;2003年11期
4 李国臣,段建勇;基于模糊集的名词细分类研究[J];计算机工程;2004年01期
5 梁以敏,黄德根;基于完全二阶隐马尔可夫模型的汉语词性标注[J];计算机工程;2005年10期
6 张虎,郑家恒,刘江;汉语语料库词性标注自动校对方法研究[J];计算机应用;2005年01期
7 温锐,朱巧明,李培峰;HMM和负反馈模型在词性标注中的应用[J];苏州大学学报(自然科学版);2005年03期
8 陈文亮,朱靖波,吕学强;词性标注规则的获取和优化[J];术语标准化与信息技术;2004年02期
9 黄德根,张丽静,张艳丽,杨元生;规则与统计相结合的兼类词处理机制[J];小型微型计算机系统;2003年07期
中国重要会议论文全文数据库 前3条
1 隋岩;张普;;基于“动态流通语料库”进行“有效字符串”提取的初步研究[A];自然语言理解与机器翻译——全国第六届计算语言学联合学术会议论文集[C];2001年
2 张艳;徐波;;基于转换的错误学习方法的汉语词性自动标注研究[A];辉煌二十年——中国中文信息学会二十周年学术会议论文集[C];2001年
3 陈文亮;朱靖波;吕学强;姚天顺;;词性标注规则的获取和优化[A];第一届学生计算语言学研讨会论文集[C];2002年
中国博士学位论文全文数据库 前1条
1 郑逢斌;关于计算机理解自然查询语言的研究[D];西南交通大学;2004年
中国硕士学位论文全文数据库 前10条
1 孔海霞;基于最大熵的汉语词性标注[D];大连理工大学;2007年
2 王敏;基于改进的隐马尔科夫模型汉语词性标注[D];山西大学;2007年
3 张丽静;规则与统计相结合的兼类词处理机制[D];大连理工大学;2002年
4 张海燕;基于分词的中文文本自动分类研究与实现[D];湖南大学;2002年
5 段建勇;现代汉语词性细分类标注研究[D];山西大学;2004年
6 张虎;汉语语料库词性标注一致性检查及自动校对方法研究[D];山西大学;2005年
7 陈鹏;基于语料库的维吾尔语词干提取和词性标注[D];新疆大学;2006年
8 贺胜;面向现代汉语文本处理的全文检索、自动分词通用系统[D];南京师范大学;2006年
9 王广正;基于知网语义相关度计算的汉语自动分词方法的研究[D];云南师范大学;2006年
10 冯连刚;汉语TTS系统中的文本分析及韵律研究[D];山东大学;2007年
【参考文献】
中国期刊全文数据库 前1条
1 周强;规则和统计相结合的汉语词类标注方法[J];中文信息学报;1995年03期
【共引文献】
中国期刊全文数据库 前10条
1 董振东,董强;面向信息处理的词汇语义研究中的若干问题[J];语言文字应用;2001年03期
2 刘来旸,瞿有利,樊孝忠;汉语智能输入系统的设计[J];北京理工大学学报;2001年03期
3 亢世勇;《现代汉语新词语信息(电子)词典》的开发与应用[J];辞书研究;2001年02期
4 亢世勇;《现代汉语语法信息词典》的特点与不足[J];辞书研究;2001年06期
5 詹卫东;80年代以来汉语信息处理研究述评──作为现代汉语语法研究的应用背景之一[J];当代语言学;2000年02期
6 徐延勇,周献中,井祥鹤,郭忠伟;基于最大熵模型的汉语句子分析[J];电子学报;2003年11期
7 李良炎,何中市,易勇;基于词联接的语义表示方法和知识库建设[J];重庆大学学报(自然科学版);2004年04期
8 李良炎,何中市,易勇;基于词联接的语义分析原理及其算法[J];重庆大学学报(自然科学版);2004年08期
9 徐志明,王晓龙,姜守旭;一种语句级汉字输入技术的研究[J];高技术通讯;2000年01期
10 蓝庆元,任海波;计算语言学概说[J];桂林师范高等专科学校学报;2001年04期
中国重要会议论文全文数据库 前10条
1 熊文;张玲;;一种基于规则不依赖于分词的中文数量短语的识别[A];中国计算技术与语言问题研究——第七届中文信息处理国际会议论文集[C];2007年
2 李竹;;中文信息处理与现代汉语词类研究[A];世纪之交的中国应用语言学研究——第二届全国语言文字应用学术研讨会论文集[C];1998年
3 朱学锋;俞士汶;李峰;;汉语语素库的构造及其同语法信息词典的集成[A];世纪之交的中国应用语言学研究——第二届全国语言文字应用学术研讨会论文集[C];1998年
4 王惠;苏新春;;XHK基于语法知识的汉语词义描述[A];第六届汉语词汇语义学研讨会论文集[C];2005年
5 冯志伟;;确定切词单位的某些非语法因素[A];语言文字应用研究论文集(Ⅱ)[C];2004年
6 李晋霞;;面向计算机的“V_双+N_双”结构类型研究[A];语言文字应用研究论文集(Ⅱ)[C];2004年
7 郑定欧;;汉语动词词汇语法[A];语言文字应用研究论文集(Ⅱ)[C];2004年
8 邢红兵;;面向对外汉语教学的动词用法频率词典[A];对外汉语学习词典学国际研讨会论文集[C];2005年
9 才让加;吉太加;;藏语语料库中词性分类代码的确定[A];中文信息处理前沿进展——中国中文信息学会二十五周年学术会议论文集[C];2006年
10 高山;张艳;徐波;宗成庆;韩兆兵;;基于三元统计模型的汉语分词及标注一体化研究[A];自然语言理解与机器翻译——全国第六届计算语言学联合学术会议论文集[C];2001年
中国博士学位论文全文数据库 前10条
1 陈莉萍;英汉语篇结构标注理论与实践[D];上海外国语大学;2007年
2 肖明;WWW科技信息资源自动标引的理论与实践研究[D];中国科学院文献情报中心;2001年
3 齐璇;汉语语义知识的表示及其在汉英机译中的应用[D];国防科学技术大学;2002年
4 马红妹;汉英机器翻译中汉语上下文语境的表示与应用研究[D];中国人民解放军国防科学技术大学;2002年
5 张蕾;概念结构及其应用[D];西北工业大学;2001年
6 樊中元;现代汉语一名多量现象研究[D];湖南师范大学;2003年
7 郭忠伟;作战文书自动生成理论及方法研究[D];南京理工大学;2003年
8 曲卫民;中文XML信息检索系统的研究[D];中国科学院研究生院(软件研究所);2004年
9 刁晏斌;虚义动词论[D];南开大学;2004年
10 陈清才;基于粗集的汉语建模及其应用研究[D];哈尔滨工业大学;2003年
中国硕士学位论文全文数据库 前10条
1 刘焘;汉语框架语义知识库信息组织与表示方法研究[D];山西大学;2007年
2 兰清;现代汉语后缀“子”构词规律研究[D];四川大学;2007年
3 柳丽慧;现代汉语持续体的表达手段[D];四川大学;2007年
4 齐波;基于自然语言理解的智能搜索方法研究[D];重庆大学;2007年
5 窦金霞;面向信息处理的“并”类短语研究[D];上海师范大学;2007年
6 陈宏彦;规则和统计相结合的分词算法[D];太原理工大学;2007年
7 王可为;基于统计的双语术语自动抽取[D];南京理工大学;2007年
8 赵晶;现代汉语重叠式副词研究[D];天津师范大学;2007年
9 齐建涛;从“三个平面”语法理论看现代汉语受事主语句[D];陕西师范大学;2007年
10 黄元萃;汉语基本名词短语的自动识别模型[D];大连理工大学;2001年
【同被引文献】
中国期刊全文数据库 前10条
1 周雅倩,郭以昆,黄萱菁,吴立德;基于最大熵方法的中英文基本名词短语识别[J];计算机研究与发展;2003年03期
2 李素建,刘群,杨志峰;基于最大熵模型的组块分析[J];计算机学报;2003年12期
3 孙茂松,黄昌宁;汉语中的兼类词、同形词类组及其处理策略[J];中文信息学报;1989年04期
4 俞士汶;语法知识在语言信息处理研究中的作用[J];语言文字应用;1997年04期
5 赵永贞 ,刘挺 ,王志伟 ,陈惠鹏 ,邵艳秋;汉语文语转换系统中停顿指数的自动标注[J];中文信息学报;2004年05期
6 朱凤石;基于人工神经网络的汉语兼类处理方法的研究[J];计算机研究与发展;1998年04期
7 王素格,张永奎;汉语词性标注排歧方法探讨[J];计算机工程与应用;2001年07期
8 周强;规则和统计相结合的汉语词类标注方法[J];中文信息学报;1995年03期
9 林鸿飞,高天,姚天顺;中文文本的可视化表示[J];东北大学学报(自然科学版);2000年05期
10 邱广君,张俐,王宝库,朱靖波,邱波;汉语信息处理中的语义关系类型分析[J];东北大学学报(自然科学版);1998年01期
中国重要会议论文全文数据库 前3条
1 高山;张艳;徐波;宗成庆;韩兆兵;;基于三元统计模型的汉语分词及标注一体化研究[A];自然语言理解与机器翻译——全国第六届计算语言学联合学术会议论文集[C];2001年
2 王蓓;杨玉芳;吕士楠;;汉语韵律层级边界结构的声学相关物[A];新世纪的现代语音学——第五届全国现代语音学学术会议论文集[C];2001年
3 朱莉;孟遥;赵铁军;;典型参数平滑算法在词性标注中的性能评价[A];语言计算与基于内容的文本处理——全国第七届计算语言学联合学术会议论文集[C];2003年
中国博士学位论文全文数据库 前2条
1 曹海龙;基于词汇化统计模型的汉语句法分析研究[D];哈尔滨工业大学;2006年
2 王建会;中文信息处理中若干关键技术的研究[D];复旦大学;2004年
中国硕士学位论文全文数据库 前10条
1 俞鸿魁;基于层次隐马尔可夫模型的汉语词法分析和命名实体识别技术[D];北京化工大学;2004年
2 娄(王廷);现代汉语分词系统通用性设计及切分歧义处理[D];北京工业大学;2000年
3 罗智勇;现代汉语通用分词系统的技术与实现[D];北京工业大学;2002年
4 关宏超;基于统计的开放式汉语自动分词[D];大连理工大学;2002年
5 张丽静;规则与统计相结合的兼类词处理机制[D];大连理工大学;2002年
6 傅赛香;基于Internet的智能信息检索技术研究[D];广西师范大学;2002年
7 许林杰;中文文本分词研究[D];山东师范大学;2003年
8 刘东旭;在自然汉语中进行分词和词性标注[D];电子科技大学;2003年
9 朱珣;中文自动分词系统的研究[D];华中师范大学;2004年
10 梁以敏;基于统计的汉语词性标注方法的研究[D];大连理工大学;2004年
【二级引证文献】
中国期刊全文数据库 前6条
1 陈文亮,朱靖波,吕学强;词性标注规则的获取和优化[J];术语标准化与信息技术;2004年02期
2 李国臣,罗云飞;采用优先选择策略的中文人称代词的指代消解[J];中文信息学报;2005年04期
3 周强;规则和统计相结合的汉语词类标注方法[J];中文信息学报;1995年03期
4 陈晓文;;自动词性标注方法的比较[J];温州大学学报;2006年01期
5 谈文蓉,杨宪泽,刘莉;汉语自动排歧方法研究[J];西南民族大学学报(自然科学版);2005年06期
6 张仰森,徐波,曹元大;自然语言处理中的语言模型及其比较研究[J];广西师范大学学报(自然科学版);2003年01期
中国重要会议论文全文数据库 前4条
1 维尼拉·木沙江;吴俊森;吐尔根·依布拉音;;维吾尔文搜索引擎的倒排索引设计与实现[A];民族语言文字信息技术研究——第十一届全国民族语言文字信息学术研讨会论文集[C];2007年
2 陈文亮;朱靖波;吕学强;姚天顺;;词性标注规则的获取和优化[A];第一届学生计算语言学研讨会论文集[C];2002年
3 罗云飞;李国臣;;采用优先选择策略的中文人称代词的指代消解[A];第二届全国学生计算语言学研讨会论文集[C];2004年
4 Dong-il Kim;;Chinese-Korean Part-of-Speech Tagging based on HMM embedding Context Information[A];多种语言信息处理国际学术会议论文集[C];2005年
中国博士学位论文全文数据库 前5条
1 何琳;古农学本体的半自动构建及检索研究[D];南京农业大学;2007年
2 宗校军;中文网页定题采集及分类研究[D];华中科技大学;2006年
3 刘政怡;中文整句智能输入方法研究[D];安徽大学;2007年
4 张亮;面向开放域的中文问答系统问句处理相关技术研究[D];南京理工大学;2006年
5 冯敏萱;论汉英平行语料的平行处理[D];南京师范大学;2006年
中国硕士学位论文全文数据库 前10条
1 魏进;中文分词技术在公安信息系统中的应用研究[D];解放军信息工程大学;2007年
2 王永景;面向文本识别流的自动校对算法研究[D];上海交通大学;2008年
3 张真;基于语义相似度的中文文本分类系统的研究与实现[D];大连海事大学;2007年
4 王敏;基于改进的隐马尔科夫模型汉语词性标注[D];山西大学;2007年
5 孔海霞;基于最大熵的汉语词性标注[D];大连理工大学;2007年
6 蔡凤真;汉语通用数据库接口的研究与实现[D];中国石油大学;2007年
7 程亮;自然语言机务信息中语义句式的研究[D];南京航空航天大学;2006年
8 王雪飞;词间相关性对文本分类的影响[D];南京理工大学;2007年
9 王莹;基于错误驱动的汉语词性标注研究[D];北京邮电大学;2007年
10 黄元萃;汉语基本名词短语的自动识别模型[D];大连理工大学;2001年
【二级参考文献】
中国期刊全文数据库 前1条
1 张虎,郑家恒,刘江;汉语语料库词性标注自动校对方法研究[J];计算机应用;2005年01期
【相似文献】
中国期刊全文数据库 前10条
1 张民,李生,赵铁军;大规模汉语语料库中任意n的n-gram统计算法及知识获取方法[J];情报学报;1997年01期
2 朱靖波,张玫杰,姚天顺;一种基于NA假设的训练数据自动构造方法[J];东北大学学报(自然科学版);1999年04期
3 魏欧,孙玉芳;基于非监督训练的汉语词性标注的实验与分析[J];计算机研究与发展;2000年04期
4 欧振猛,余顺争;中文分词算法在搜索引擎应用中的研究[J];计算机工程与应用;2000年08期
5 魏欧,吴健,孙玉芳,sonata.iscas.ac.cn;基于统计的汉语词性标注方法的分析与改进[J];软件学报;2000年04期
6 朱荫牛,周钢;建造汉字智能输入平台 促进汉字输入快速高效[J];中国传媒科技;2002年06期
7 张剑,吴际,周明;机器翻译评测的新进展[J];中文信息学报;2003年06期
8 郭燕慧,钟义信;统计语言模型中句子的语义连贯性判别[J];情报学报;2003年04期
9 苏菲,王丹力,戴国忠;基于标记的规则统计模型与未登录词识别算法[J];计算机工程与应用;2004年15期
10 谢春发;中文智能搜索引擎的研究与探讨[J];河北广播电视大学学报;2005年04期
中国重要会议论文全文数据库 前1条
1 马金山;刘挺;李生;;基于n-gram及依存分析的中文自动查错方法[A];Advances in Computation of Oriental Languages--Proceedings of the 20th International Conference on Computer Processing of Oriental Languages[C];2003年
中国硕士学位论文全文数据库 前3条
1 贾自艳;中文智能搜索引擎关键技术研究[D];北京工业大学;2001年
2 王明燕;基于WEB页面的关键词与关键概念提取技术[D];北京工业大学;2003年
3 冯连刚;汉语TTS系统中的文本分析及韵律研究[D];山东大学;2007年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62791813
  • 010-62985026