收藏本站
《中文信息学报》 2008年04期
收藏 | 投稿 | 手机打开
二维码
手机客户端打开本文

汉语交集型歧义切分字段关于专业领域的统计特性

乔维  孙茂松  
【摘要】:交集型分词歧义是汉语自动分词中的主要歧义类型之一。现有的汉语自动分词系统对它的处理能力尚不能完全令人满意。针对交集型分词歧义,基于通用语料库的考察目前已有不少,但还没有基于专业领域语料库的相关考察。根据一个中等规模的汉语通用词表、一个规模约为9亿字的通用语料库和两个涵盖55个专业领域、总规模约为1.4亿字的专业领域语料库,对从通用语料库中抽取的高频交集型歧义切分字段在专业领域语料库中的统计特性,以及从专业领域语料库中抽取的交集型歧义切分字段关于专业领域的统计特性进行了穷尽式、多角度的考察。给出的观察结果对设计面向专业领域的汉语自动分词算法具有一定的参考价值。
【作者单位】清华信息科学与技术国家实验室(筹)清华大学计算机科学与技术系 清华信息科学与技术国家实验室(筹)清华大学计算机科学与技术系
【关键词】计算机应用 中文信息处理 汉语自动分词 专业领域语料库 交集型歧义切分字段 伪歧义 真歧义 统计特性 交集型分词歧义 统计分布
【基金】:国家自然科学基金资助项目(60573187) 国家863计划资助项目(2007AA01Z148)
【分类号】:TP391.1
【正文快照】:
1引言汉语自动分词是制约中文信息处理发展的瓶颈之一,分词歧义是影响分词精度的重要因素[1]。汉语分词歧义主要分为交集型歧义和覆盖型歧义两种,而交集型歧义切分字段占所有歧义字段的90%以上[2]。根据1998年中国863智能计算机主题对一些有代表性的汉语自动分词软件的评测结

【参考文献】
中国期刊全文数据库 前6条
1 罗智勇;宋柔;;现代汉语通用分词系统中歧义切分的实用技术[J];计算机研究与发展;2006年06期
2 王伟,钟义信,孙建,杨力;一种基于EM非监督训练的自组织分词歧义解决方案[J];中文信息学报;2001年02期
3 李蓉,刘少辉,叶世伟,史忠植;基于SVM和k-NN结合的汉语交集型歧义切分方法[J];中文信息学报;2001年06期
4 李斌;陈小荷;方芳;徐艳华;;基于语料库的高频最大交集型歧义字段考察[J];中文信息学报;2006年01期
5 孙茂松,左正平,邹嘉彦;高频最大交集型歧义切分字段在汉语自动分词中的作用[J];中文信息学报;1999年01期
6 刘开瑛;现代汉语自动分词评测技术研究[J];语言文字应用;1997年01期
【共引文献】
中国期刊全文数据库 前10条
1 彭泽润;林思佳;;从两个国家标准看汉语的词[J];北华大学学报(社会科学版);2006年06期
2 龚汉明,周长胜;汉语分词技术综述[J];北京机械工业学院学报;2004年03期
3 张锋,樊孝忠;基于最大熵模型的交集型切分歧义消解[J];北京理工大学学报;2005年07期
4 文庭孝;汉语自动分词研究进展[J];图书与情报;2005年05期
5 吴登堂;关于字母词的思考——兼谈中文信息处理对字母词自动切分的构想[J];丹东师专学报;2003年02期
6 冯志伟;汉字和汉语的计算机处理[J];当代语言学;2001年01期
7 孙茂松,邹嘉彦;汉语自动分词研究评述[J];当代语言学;2001年01期
8 黄德根,马玉霞,杨元生;基于互信息的中文姓名识别方法[J];大连理工大学学报;2004年05期
9 吴静,蔡砥,王铮;地理信息系统中自然语言查询的分词处理与应用[J];地球信息科学;2005年03期
10 王显芳,杜利民;一种能够检测所有交叉歧义的汉语分词算法[J];电子学报;2004年01期
中国重要会议论文全文数据库 前10条
1 潘雪莲;;词频统计在词典收词中的作用[A];中国辞书论集2001[C];2001年
2 胡清平;;受控语言及其在汉英机器翻译里的应用前景[A];国际译联第四届亚洲翻译家论坛论文集[C];2005年
3 靳光瑾;郭曙纶;肖航;章云帆;;语料库加工中的规范问题——谈《信息处理用现代汉语词类标记集规范》[A];语言文字应用研究论文集(Ⅱ)[C];2004年
4 陈晓;;中文文本自动分词研究述要[A];第四届全国语言文字应用学术研讨会论文集[C];2005年
5 付国宏;王晓龙;龚永红;;基于词形的汉语文本切分方法[A];第五届全国人机语音通讯学术会议论文集[C];1998年
6 侯敏;;汉语自动分析中的若干问题与对策[A];自然语言理解与机器翻译——全国第六届计算语言学联合学术会议论文集[C];2001年
7 孙茂松;;汉语自动分词研究的若干最新进展——清华大学相关工作简介[A];辉煌二十年——中国中文信息学会二十周年学术会议论文集[C];2001年
8 陶建华;蔡莲红;赵晟;;汉语语音合成中的文本分析和韵律处理[A];辉煌二十年——中国中文信息学会二十周年学术会议论文集[C];2001年
9 许超;陈小荷;;试评两种商用机译软件的汉语分析能力[A];机器翻译研究进展——2002年全国机器翻译研讨会论文集[C];2002年
10 陈玉忠;李保利;俞士汶;兰措吉;;基于格助词和接续特征的藏文自动分词方案[A];第一届学生计算语言学研讨会论文集[C];2002年
中国博士学位论文全文数据库 前10条
1 宋春阳;面向信息处理的现代汉语“名+名”逻辑语义研究[D];上海师范大学;2003年
2 张蕾;概念结构及其应用[D];西北工业大学;2001年
3 张伟;基于WWW的聚类引擎研究[D];重庆大学;2003年
4 王兰成;基于XMARC信息描述的知识标引与概念检索研究[D];东华大学;2004年
5 刘忠;性质语意理论的提出与自然语言理解及其实现的研究[D];华东师范大学;2004年
6 隋岩;基于“动态流通语料库”的“有效字符串”提取研究[D];北京语言大学;2004年
7 郑逢斌;关于计算机理解自然查询语言的研究[D];西南交通大学;2004年
8 彭强;复杂系统远程智能故障诊断技术研究[D];南京理工大学;2004年
9 王建会;中文信息处理中若干关键技术的研究[D];复旦大学;2004年
10 李良炎;基于词联接的自然语言处理技术及其应用研究[D];重庆大学;2004年
中国硕士学位论文全文数据库 前10条
1 朴点熙;七种汉语教材选词分析[D];北京语言文化大学;2000年
2 何燕;任意类型的未登录词的识别研究[D];北京语言文化大学;2000年
3 王省;基地统计和规则的中文姓名识别系统的研制[D];大连理工大学;2000年
4 李卫亮;现代汉语分词系统中专名识别的实用策略[D];北京工业大学;2000年
5 娄(王廷);现代汉语分词系统通用性设计及切分歧义处理[D];北京工业大学;2000年
6 黄艳;面向数字化产品的自然语言查询技术的研究与开发[D];浙江大学;2002年
7 缪晓阳;WebCM:一种基于搜索引擎的网络内容监控系统的研究[D];浙江大学;2002年
8 罗智勇;现代汉语通用分词系统的技术与实现[D];北京工业大学;2002年
9 陆文彦;概念网的建模、实现与应用[D];中南大学;2002年
10 李丽苹;教学电子信息资源管理研究[D];南京师范大学;2002年
【二级参考文献】
中国期刊全文数据库 前10条
1 孙茂松,邹嘉彦;汉语自动分词研究评述[J];当代语言学;2001年01期
2 刘群,张华平,俞鸿魁,程学旗;基于层叠隐马模型的汉语词法分析[J];计算机研究与发展;2004年08期
3 何克抗,徐辉,孙波;书面汉语自动分词专家系统设计原理[J];中文信息学报;1991年02期
4 娄珽,宋柔,李卫亮,罗智勇;现代汉语分词系统通用接口设计与实现[J];中文信息学报;2001年05期
5 孙茂松,左正平,邹嘉彦;高频最大交集型歧义切分字段在汉语自动分词中的作用[J];中文信息学报;1999年01期
6 陈小荷;用基于词的二元模型消解交集型分词歧义[J];南京师大学报(社会科学版);2004年06期
7 孙茂松,肖明,邹嘉彦;基于无指导学习策略的无词表条件下的汉语自动分词[J];计算机学报;2004年06期
8 刘开瑛;现代汉语自动分词评测技术研究[J];语言文字应用;1997年01期
9 曹焕光,郑家恒;自动分词软件质量的评价模型[J];中文信息学报;1992年04期
10 孙茂松,黄昌宁,高海燕,方捷;中文姓名的自动辨识[J];中文信息学报;1995年02期
中国硕士学位论文全文数据库 前1条
1 娄(王廷);现代汉语分词系统通用性设计及切分歧义处理[D];北京工业大学;2000年
【相似文献】
中国期刊全文数据库 前10条
1 王桂荣 ,张正卿;抗干扰曲线的一种算法[J];数值计算与计算机应用;1980年02期
2 ;数值计算与计算机应用第1卷1980年总目录[J];数值计算与计算机应用;1980年04期
3 杨廷郊;苏联计算机发展及应用简况[J];机器人;1980年02期
4 叶玉澄;关于算法集的一些特征[J];南昌大学学报(理科版);1980年01期
5 陈明远,管汀鹭;打字能比说话更快——几种高速键盘的设计[J];自然杂志;1980年08期
6 ;电子技术应用——1980年1~6期总目录[J];电子技术应用;1980年06期
7 钱锋;计算语言学[J];自然杂志;1980年04期
8 平一梅;约瑟夫森器件的计算机应用[J];西北大学学报(自然科学版);1980年04期
9 ;“电子计算机工程与科学”1980年征订启事[J];计算机工程与科学;1980年01期
10 朱三元;徐元宙;;COBOL的变迁[J];计算机研究与发展;1980年06期
中国重要会议论文全文数据库 前10条
1 刘祥官;刘芳;陆剑锋;李满喜;蔡漳平;卜敏;高贤成;程克友;;济钢350m~3高炉的炼铁优化专家系统[A];1999中国钢铁年会论文集(上)[C];1999年
2 周爱民;鲍爱华;徐必根;徐树岚;;我国有色矿山的主要技术成就与差距[A];第六届全国采矿学术会议论文集[C];1999年
3 蒋继穆;;“八五”期间重有色金属冶炼技术进展概述[A];中国有色金属学会第三届学术会议论文集——战略研究综述部分[C];1997年
4 谢放;;深覆盖层上面板堆石坝的分析计算[A];中国土木工程学会计算机应用分会第七届年会论文集[C];1999年
5 高洪深;;企业管理决策支持系统及其三库系统的研究[A];企业发展与系统工程——中国系统工程学会第七届年会论文集[C];1992年
6 王菲菲;;市、县公共图书馆如何面对计算机应用新趋势[A];福建省迎接21世纪的图书馆服务学术研讨会论文集[C];1998年
7 林士敏;;普及CAI知识 培养跨世纪人才——CAI课程开设五年回顾[A];广西高等教育改革与发展——《广西高教研究》创刊十周年(1985-1995)论文选集[C];1996年
8 李正仁;;在桥梁工程中计算机应用的几点展望[A];中国土木工程学会计算机应用分会第七届年会论文集[C];1999年
9 程军;胡怡;;走向多元化发展的21世纪计算机[A];中国土木工程学会计算机应用分会第七届年会论文集[C];1999年
10 黄东;郑邦民;黄昕;;明渠非恒定流数值模拟中的计算机应用初探[A];中国土木工程学会计算机应用分会第七届年会论文集[C];1999年
中国重要报纸全文数据库 前10条
1 伊凡;计算机应用上新台阶[N];中国船舶报;2000年
2 王周文;汉字学教育学专家关注小学识字教学[N];中国教育报;2000年
3 柯技;IT产业推动经济结构调整[N];中国矿业报;2000年
4 陈文;IBM开发出五个原子的量子计算机[N];光明日报;2000年
5 ;形形色色的中文输入法[N];中国信息报;2000年
6 张长明;语言:人类文明的标志[N];安徽日报;2001年
7 李健;反病毒软件:抢占市场突破口[N];中国电力报;2001年
8 刘萍;我国中文信息处理技术达到新水平[N];中国电子报;2001年
9 本报记者 梁曦 特约记者 杨蓉 董万森;托起国际工程的平台[N];中国化工报;2001年
10 国家标准化管理委员会主任助理 宿忠民;加快标准化步伐 促进高新技术产业发展[N];中国国门时报(中国出入境检验疫报);2001年
中国博士学位论文全文数据库 前10条
1 姜梅;基于生物免疫系统的计算机入侵检测技术研究[D];南京航空航天大学;2001年
2 宋春阳;面向信息处理的现代汉语“名+名”逻辑语义研究[D];上海师范大学;2003年
3 方向红;基于内涵逻辑的现代汉语连接词及关联句式语义研究[D];上海师范大学;2004年
4 涂蓉;肝CT图像分析的临床与计算机应用研究[D];中南大学;2004年
5 王建会;中文信息处理中若干关键技术的研究[D];复旦大学;2004年
6 刘杰;泄漏发射的信息重建与防御对策[D];浙江大学;2004年
7 陈守强;丁书文教授用药规律的计算机辅助分析[D];山东中医药大学;2005年
8 Memon Abdul Ghafoor;[D];浙江大学;2006年
9 单大卯;人体下肢肌肉功能模型及其应用的研究[D];上海体育学院;2003年
10 吴应良;网络计算中的智能信息处理方法研究[D];华南理工大学;2000年
中国硕士学位论文全文数据库 前10条
1 李卫亮;现代汉语分词系统中专名识别的实用策略[D];北京工业大学;2000年
2 娄(王廷);现代汉语分词系统通用性设计及切分歧义处理[D];北京工业大学;2000年
3 胡光源;Windows环境下动画制作系统[D];大连理工大学;2000年
4 陈瑞丹;面向企业信息系统的可适应性建模研究与应用[D];大连理工大学;2000年
5 郭卉萍;基于Java的网络中文平台的研究与实现[D];西安电子科技大学;2001年
6 吴传喜;一种面向Internet的中文应用支撑平台的研究与实现[D];西安电子科技大学;2001年
7 刘宏;基于Web的自主学习远程教学系统[D];辽宁师范大学;2001年
8 刘向辉;专题性智能搜索引擎的研究与实现[D];昆明理工大学;2001年
9 程丽芳;基于Ada95的语言识别器生成器的研究[D];西安电子科技大学;2001年
10 张驰;Web信息获取技术研究与实现[D];西北工业大学;2001年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62791813
  • 010-62985026