《计算机工程与应用》2001年07期 加入收藏    获取最新 
 汉语词性标注排歧方法探讨
 王素格;张永奎
   该文将概率统计的二元模型与三元模型用于汉语词性自动标注,在算法为线性阶的时间复杂度的情况下,对20万训练集和1万的测试集,分别进行封闭测试和开放测试,对稀疏矩阵零元素及词性标注的结果做了统计分析。
【作者单位】:山西大学计算机科学系!太原 030006;山西大学计算机科学系!太原 030006
【关键词】:词性标注;同现概率矩阵;语料库;统计模型
【基金】:国家自然科学基金项目!(编号:69575011);国家"863"项目;(编号:863-306-ZT03-03-1);山西省自然科学基金项目;(编号:991
【分类号】:TP391.1
【DOI】:cnki:ISSN:1002-8331.0.2001-07-022
【正文快照】:
  1 引言 汉语词性自动标注问题是中文信息处理领域的基础性研究课题。随着计算机对大量真实文本处理的迫切需要,对词性的要求也显得日益迫切,由于它的研究结果直接影响到语法分析、语义分析、语音识别、机器翻译、信息检索、信息过滤等诸多领域的研究,因此,一直引起人们的关
 
 推荐 下载CAJ全文           下载PDF全文
 CAJViewer7.0阅读器支持所有CNKI文件格式,AdobeReader仅支持PDF格式
 The Dissussion of Disambiguation Method to the Chinese Pos Tagging
 Wang Suge Zhang Yongkui (Department of Computer Science,Shanxi University,Taiyuan 030006)
  : In this paper,the statistic-based bi-grams and tri-grams were used in Chinese part-of-speech tagging.An algorithm which has a time complexity of O(n) was trained on a close corpus of 200,000 characters and then tested on an open test set of 10,000 characters.Finally,the sparse matrix zeros element and the tagging results were statistically analyzed.
【Keyword】:: part-of-speech tagging,co-concurrency frequency matrix,corpus,statistic model
 【参考文献】 共(1)篇 
 中国期刊全文数据库找到 1 条
 
1周强; 基于语料库和面向统计学的自然语言处理技术 [J]; 计算机科学; 1995年04期
 【引证文献】 共(9)篇 
 中国优秀硕士学位论文全文数据库找到 5 条
 
1张丽静; 规则与统计相结合的兼类词处理机制 [D];大连理工大学; 2002年
2张俊; 基于内容的汉语文献信息检索系统的设计与实现 [D];南京农业大学; 2006年
3陈鹏; 基于语料库的维吾尔语词干提取和词性标注 [D];新疆大学; 2006年
4杨军玲; 汉语动词词语搭配自动获取方法研究 [D];山西大学; 2006年
5段立; 语境计算在词语歧义消解中的应用 [D];华东师范大学; 2006年
 中国期刊全文数据库找到 4 条
 
1李朝虹,陆建湖; 现代汉语自动分析研究现状综述 [J]; 广西教育学院学报; 2003年01期
2王东海,赵伟,陈洁,梁贺; 基于隐Markov模型汉语词性自动标注的若干分析与改进 [J]; 长春工业大学学报(自然科学版); 2007年01期
3王广正,王喜凤; 一种基于规则优先级的词性标注方法 [J]; 安徽工业大学学报(自然科学版); 2008年04期
4黄德根,张丽静,张艳丽,杨元生; 规则与统计相结合的兼类词处理机制 [J]; 小型微型计算机系统; 2003年07期
 【共引文献】 共(25)篇 
 中国优秀硕士学位论文全文数据库找到 5 条
 
1黄新艳; 基于英汉双语语料库的英汉双语Ontology的建立与管理 [D];中国海洋大学; 2006年
2汪冰; 智能机译系统的知识辅助获取 [D];中国科学院研究生院(计算技术研究所); 1997年
3李嵩; 语言学文献标题的术语提取研究 [D];山东大学; 2007年
4宋明; 胜任力建模过程中智能化编码研究 [D];合肥工业大学; 2007年
5王家琴; Web信息检索中的概念相似度研究 [D];湖南大学; 2006年
 中国博士学位论文全文数据库找到 3 条
 
1宋今; 面向网络实时翻译的双语信息管理系统BLIMS设计 [D];中国科学院研究生院(计算技术研究所); 1998年
2赵小兵; 基于动态流通语料库的现代汉语基本词汇自动识别与提取方法研究 [D];北京语言大学; 2007年
3张春霞; 领域文本知识获取方法研究及其在考古领域中的应用 [D];中国科学院研究生院(计算技术研究所); 2005年
 中国期刊全文数据库找到 10 条
 
1詹卫东; 80年代以来汉语信息处理研究述评──作为现代汉语语法研究的应用背景之一 [J]; 当代语言学; 2000年02期
2陶晓鹏,胡运发; 基于邻接矩阵全文索引模型的文本压缩技术 [J]; 中文信息学报; 2004年01期
3赵斯琴,高光来,何敏; 蒙古语语料库的研究与建设 [J]; 内蒙古大学学报(自然科学版); 2003年05期
4刘长松,伍振军,乔春雷,李元祥; 用统计方法实现汉字输入的智能联想 [J]; 中文信息学报; 2000年01期
5林建红,赵跃龙; 可穿戴计算机军事应用研究 [J]; 计算机时代; 2004年02期
6梁涤尘,任桢; 电力文献搜索引擎系统设计 [J];计算机与数字工程; 2007年07期
7曹娟,周经野; 一种计算汉字串之间相关程度的新方法 [J]; 中文信息学报; 2004年04期
8王东海,赵伟,陈洁,梁贺; 基于隐Markov模型汉语词性自动标注的若干分析与改进 [J]; 长春工业大学学报(自然科学版); 2007年01期
9周新栋,王挺; 基于N元语言模型的文本分类方法 [J]; 计算机应用; 2005年01期
10刘佳,韩秀玲; 拼音到汉字自动转换技术的改进与实现 [J]; 科学技术与工程; 2007年24期
 中国重要会议论文全文数据库找到 1 条
 
1朱学锋,俞士汶,李峰; 汉语语素库的构造及其同语法信息词典的集成 [A];世纪之交的中国应用语言学研究——第二届全国语言文字应用学术研讨会论文集 [C]; 1998年
 【同被引文献】 共(75)篇 
 中国优秀硕士学位论文全文数据库找到 1 条
 
1由丽萍; 动词与动词搭配自动获取方法研究 [D];上海师范大学; 2003年
 中国期刊全文数据库找到 10 条
 
1林穗芳; 电子编辑和电子出版物:概念、起源和早期发展(上) [J]; 出版科学; 2005年03期
2梁南元; 书面汉语的自动分词与一个自动分词系统—CDWS [J]; 北京航空航天大学学报; 1984年04期
3徐延勇,周献中,井祥鹤,郭忠伟; 基于最大熵模型的汉语句子分析 [J]; 电子学报; 2003年11期
4叶东毅,陈昭炯; 一个新的差别矩阵及其求核方法 [J]; 电子学报; 2002年07期
5孙茂松,邹嘉彦; 汉语自动分词研究评述 [J]; 当代语言学; 2001年01期
6赵岩,王晓龙,刘秉权,关毅; 融合聚类触发对特征的最大熵词性标注模型 [J]; 计算机研究与发展; 2006年02期
7王素格,张永奎; 基于搭配模式的汉语词性标注规则的获取方法 [J]; 计算机工程与应用; 2001年05期
8苏祺,昝红英,胡景贺,项锟; 词性标注对信息检索系统性能的影响 [J]; 中文信息学报; 2005年02期
9屈刚,陆汝占; 基于特征的汉语词性标注模型 [J]; 计算机研究与发展; 2003年04期
10古丽拉·阿东别克,米吉提·阿布力米提; 维吾尔语词切分方法初探 [J]; 中文信息学报; 2004年06期
 【二级引证文献】 共(16)篇 
 中国优秀硕士学位论文全文数据库找到 9 条
 
1许红花; HSK甲级词中的兼类词研究 [D];延边大学; 2004年
2张虎; 汉语语料库词性标注一致性检查及自动校对方法研究 [D];山西大学; 2005年
3程冲; 信息检索用汉语分词与未登录词识别技术研究 [D];南京农业大学; 2007年
4程亮; 自然语言机务信息中语义句式的研究 [D];南京航空航天大学; 2006年
5贺胜; 面向现代汉语文本处理的全文检索、自动分词通用系统 [D];南京师范大学; 2006年
6孔海霞; 基于最大熵的汉语词性标注 [D];大连理工大学; 2007年
7段建勇; 现代汉语词性细分类标注研究 [D];山西大学; 2004年
8热西旦; 汉文—维吾尔文双语语料库构建的实验性研究 [D];新疆大学; 2007年
9卢杰; 基于中文文字情感识别系统的研究 [D];西华大学; 2008年
 中国博士学位论文全文数据库找到 2 条
 
1李良炎; 基于词联接的自然语言处理技术及其应用研究 [D];重庆大学; 2004年
2冯敏萱; 论汉英平行语料的平行处理 [D];南京师范大学; 2006年
 中国期刊全文数据库找到 4 条
 
1贺桂华; 语词性标注方法比较 [J]; 怀化学院学报(自然科学); 2008年01期
2刘艳,古丽拉.阿东别克,伊力亚尔; 哈萨克语词性自动标注研究初探 [J]; 计算机工程与应用; 2008年20期
3陈晓文; 自动词性标注方法的比较 [J]; 温州大学学报; 2006年01期
4谈文蓉,杨宪泽,刘莉; 汉语自动排歧方法研究 [J]; 西南民族大学学报(自然科学版); 2005年06期
 中国重要会议论文全文数据库找到 1 条
 
1维尼拉·木沙江,吴俊森,吐尔根·依布拉音; 维吾尔文搜索引擎的倒排索引设计与实现 [A];民族语言文字信息技术研究——第十一届全国民族语言文字信息学术研讨会论文集 [C]; 2007年
 【相似文献】 
 中国期刊全文数据库
 
1王素格,张永奎; 汉语词性标注排歧方法探讨 [J];计算机工程与应用; 2001年07期; 71-73
2胡春静,韩兆强; 基于隐马尔可夫模型(HMM)的词性标注的应用研究 [J];计算机工程与应用; 2002年06期; 62-64
3郑家恒,李飞; 汉语自动分词与词性标注软件的组件化 [J];电脑开发与应用; 2001年07期; 12-13+16
4苏祺,昝红英,胡景贺,项锟; 词性标注对信息检索系统性能的影响 [J];中文信息学报; 2005年02期; 59-66
5韩东妹,林民; 自动词性标注概述 [J];内蒙古科技与经济; 2006年01期; 134-135
6付国宏,王平,王晓龙; 汉语分词和词性标注一体化分析的方法研究 [J];计算机应用研究; 2001年07期; 24-26
7屈刚,陆汝占; 一个改进的汉语词性标注系统 [J];上海交通大学学报; 2003年06期; 93-96
8温锐,朱巧明,李培峰; HMM和负反馈模型在词性标注中的应用 [J];苏州大学学报(自然科学版); 2005年03期; 42-45
9牛洪梅,吐尔根,伊不拉音; 维吾尔语的词性标注校对初探 [J];微型电脑应用; 2006年12期; 6+55-57
10王挺,陈火旺,杨谊,史晓东; 一种自适应词性标注方法 [J];软件学报; 1997年12期; 937-943
 中国优秀硕士学位论文全文数据库
 
1钱揖丽; 中文文本分词及词性标注自动校对方法研究 [D];山西大学; 2003年
2刘东旭; 在自然汉语中进行分词和词性标注 [D];电子科技大学; 2003年
3张虎; 汉语语料库词性标注一致性检查及自动校对方法研究 [D];山西大学; 2005年
4熊冬明; 汉语自动分词和中文人名识别技术研究 [D];浙江大学; 2006年
5张丽静; 规则与统计相结合的兼类词处理机制 [D];大连理工大学; 2002年
6张华; WWW图像语义信息提取方法研究 [D];山东师范大学; 2004年
7俞鸿魁; 基于层次隐马尔可夫模型的汉语词法分析和命名实体识别技术 [D];北京化工大学; 2004年
8王广正; 基于知网语义相关度计算的汉语自动分词方法的研究 [D];云南师范大学; 2006年
9温锐; 中文命名实体识别及其关系抽取研究 [D];苏州大学; 2005年
10陈鹏; 基于语料库的维吾尔语词干提取和词性标注 [D];新疆大学; 2006年
 中国博士学位论文全文数据库
 
1曹海龙; 基于词汇化统计模型的汉语句法分析研究 [D];哈尔滨工业大学; 2006年
2郭永辉; 英汉机器翻译系统关键技术研究 [D];解放军信息工程大学; 2006年
3李晓黎; WEB信息检索与分类中的数据采掘研究 [D];中国科学院研究生院(计算技术研究所); 2001年
4张华平; 语言浅层分析与句子级新信息检测研究 [D];中国科学院研究生院(计算技术研究所); 2005年
5王智强; 汉语指代消解及相关技术研究 [D];北京邮电大学; 2006年
 中国重要会议论文全文数据库
 
1朱莉,孟遥,赵铁军; 典型参数平滑算法在词性标注中的性能评价 [A];语言计算与基于内容的文本处理——全国第七届计算语言学联合学术会议论文集 [C]; 2003年
2杨尔弘,方莹,乔羽; 汉语自动分词和词性标注评测 [A];第二届全国学生计算语言学研讨会论文集 [C]; 2004年
3张艳,徐波; 基于转换的错误学习方法的汉语词性自动标注研究 [A];辉煌二十年——中国中文信息学会二十周年学术会议论文集 [C]; 2001年
4苏祺,昝红英,胡景贺,项锟; 词性标注对信息检索系统性能的影响 [A];NCIRCS2004第一届全国信息检索与内容安全学术会议论文集 [C]; 2004年
5许超,陈小荷; 试评两种商用机译软件的汉语分析能力 [A];机器翻译研究进展——2002年全国机器翻译研讨会论文集 [C]; 2002年
6江丰,刘慧,陈玉泉,陆汝占; 一个可扩展的汉语词法和句法分析一体化系统 [A];全国第八届计算语言学联合学术会议(JSCL-2005)论文集 [C]; 2005年
7李治国,周俏丽; 在篇章中面向产品类的命名实体识别研究 [A];第三届学生计算语言学研讨会论文集 [C]; 2006年
8库尔班·吾布力,艾斯卡尔·艾木都拉; 基于量化模型的维吾尔语调曲线F_0的合成技术研究 [A];民族语言文字信息技术研究——第十一届全国民族语言文字信息学术研讨会论文集 [C]; 2007年
9张洁,孟遥,于浩; 基于分词性能的汉语语料库比较研究 [A];中文信息处理前沿进展——中国中文信息学会二十五周年学术会议论文集 [C]; 2006年
10郭慧志,刘华,谢学敏,张普; 《人民日报》标注语料的初步统计分析 [A];全国第八届计算语言学联合学术会议(JSCL-2005)论文集 [C]; 2005年
 中国重要报纸全文数据库
 
1记者张璋; 中文自然语言资源共享开辟新路 [N];科学时报; 2003年