收藏本站
《中文信息学报》 2008年04期
收藏 | 投稿 | 手机打开
二维码
手机客户端打开本文

汉语交集型歧义切分字段关于专业领域的统计特性

乔维  孙茂松  
【摘要】:交集型分词歧义是汉语自动分词中的主要歧义类型之一。现有的汉语自动分词系统对它的处理能力尚不能完全令人满意。针对交集型分词歧义,基于通用语料库的考察目前已有不少,但还没有基于专业领域语料库的相关考察。根据一个中等规模的汉语通用词表、一个规模约为9亿字的通用语料库和两个涵盖55个专业领域、总规模约为1.4亿字的专业领域语料库,对从通用语料库中抽取的高频交集型歧义切分字段在专业领域语料库中的统计特性,以及从专业领域语料库中抽取的交集型歧义切分字段关于专业领域的统计特性进行了穷尽式、多角度的考察。给出的观察结果对设计面向专业领域的汉语自动分词算法具有一定的参考价值。
【作者单位】清华信息科学与技术国家实验室(筹)清华大学计算机科学与技术系 清华信息科学与技术国家实验室(筹)清华大学计算机科学与技术系
【基金】:国家自然科学基金资助项目(60573187) 国家863计划资助项目(2007AA01Z148)
【分类号】:TP391.1
【正文快照】:
1引言汉语自动分词是制约中文信息处理发展的瓶颈之一,分词歧义是影响分词精度的重要因素[1]。汉语分词歧义主要分为交集型歧义和覆盖型歧义两种,而交集型歧义切分字段占所有歧义字段的90%以上[2]。根据1998年中国863智能计算机主题对一些有代表性的汉语自动分词软件的评测结

【参考文献】
中国期刊全文数据库 前6条
1 罗智勇;宋柔;;现代汉语通用分词系统中歧义切分的实用技术[J];计算机研究与发展;2006年06期
2 李蓉,刘少辉,叶世伟,史忠植;基于SVM和k-NN结合的汉语交集型歧义切分方法[J];中文信息学报;2001年06期
3 王伟,钟义信,孙建,杨力;一种基于EM非监督训练的自组织分词歧义解决方案[J];中文信息学报;2001年02期
4 孙茂松,左正平,邹嘉彦;高频最大交集型歧义切分字段在汉语自动分词中的作用[J];中文信息学报;1999年01期
5 李斌;陈小荷;方芳;徐艳华;;基于语料库的高频最大交集型歧义字段考察[J];中文信息学报;2006年01期
6 刘开瑛;现代汉语自动分词评测技术研究[J];语言文字应用;1997年01期
【共引文献】
中国期刊全文数据库 前10条
1 彭泽润;林思佳;;从两个国家标准看汉语的词[J];北华大学学报(社会科学版);2006年06期
2 龚汉明,周长胜;汉语分词技术综述[J];北京机械工业学院学报;2004年03期
3 张锋,樊孝忠;基于最大熵模型的交集型切分歧义消解[J];北京理工大学学报;2005年07期
4 文庭孝;汉语自动分词研究进展[J];图书与情报;2005年05期
5 吴登堂;关于字母词的思考——兼谈中文信息处理对字母词自动切分的构想[J];丹东师专学报;2003年02期
6 冯志伟;汉字和汉语的计算机处理[J];当代语言学;2001年01期
7 孙茂松,邹嘉彦;汉语自动分词研究评述[J];当代语言学;2001年01期
8 黄德根,马玉霞,杨元生;基于互信息的中文姓名识别方法[J];大连理工大学学报;2004年05期
9 吴静,蔡砥,王铮;地理信息系统中自然语言查询的分词处理与应用[J];地球信息科学;2005年03期
10 王显芳,杜利民;一种能够检测所有交叉歧义的汉语分词算法[J];电子学报;2004年01期
中国重要会议论文全文数据库 前3条
1 胡清平;;受控语言及其在汉英机器翻译里的应用前景[A];国际译联第四届亚洲翻译家论坛论文集[C];2005年
2 Luning Ji, Qin Lu, Wenjie Li, YiRong Chen The Department of Computing, The Hong Kong Polytechnic University, Hong Kong, China;A Comparative Study of the Effect of Word Segmentation On Chinese Terminology Extraction[A];第20届亚太地区语言、信息和计算国际会议论文集[C];2006年
3 赫琳;;论“X 从小 Y”的词切分——“从小”语义指向计算机识别的再思考[A];中国计算技术与语言问题研究——第七届中文信息处理国际会议论文集[C];2007年
中国博士学位论文全文数据库 前10条
1 宋春阳;面向信息处理的现代汉语“名+名”逻辑语义研究[D];上海师范大学;2003年
2 张蕾;概念结构及其应用[D];西北工业大学;2001年
3 张伟;基于WWW的聚类引擎研究[D];重庆大学;2003年
4 王兰成;基于XMARC信息描述的知识标引与概念检索研究[D];东华大学;2004年
5 刘忠;性质语意理论的提出与自然语言理解及其实现的研究[D];华东师范大学;2004年
6 隋岩;基于“动态流通语料库”的“有效字符串”提取研究[D];北京语言大学;2004年
7 郑逢斌;关于计算机理解自然查询语言的研究[D];西南交通大学;2004年
8 彭强;复杂系统远程智能故障诊断技术研究[D];南京理工大学;2004年
9 王建会;中文信息处理中若干关键技术的研究[D];复旦大学;2004年
10 李良炎;基于词联接的自然语言处理技术及其应用研究[D];重庆大学;2004年
中国硕士学位论文全文数据库 前10条
1 朴点熙;七种汉语教材选词分析[D];北京语言文化大学;2000年
2 何燕;任意类型的未登录词的识别研究[D];北京语言文化大学;2000年
3 王省;基地统计和规则的中文姓名识别系统的研制[D];大连理工大学;2000年
4 李卫亮;现代汉语分词系统中专名识别的实用策略[D];北京工业大学;2000年
5 娄(王廷);现代汉语分词系统通用性设计及切分歧义处理[D];北京工业大学;2000年
6 黄艳;面向数字化产品的自然语言查询技术的研究与开发[D];浙江大学;2002年
7 缪晓阳;WebCM:一种基于搜索引擎的网络内容监控系统的研究[D];浙江大学;2002年
8 罗智勇;现代汉语通用分词系统的技术与实现[D];北京工业大学;2002年
9 陆文彦;概念网的建模、实现与应用[D];中南大学;2002年
10 李丽苹;教学电子信息资源管理研究[D];南京师范大学;2002年
【同被引文献】
中国期刊全文数据库 前10条
1 陈再良;凌力;周强;;dPageRank——一种改进的分布式PageRank算法[J];计算机应用;2006年01期
2 管建和;甘剑峰;;基于Lucene全文检索引擎的应用研究与实现[J];计算机工程与设计;2007年02期
3 高军,陈锡先;无监督的动态分词方法[J];北京邮电大学学报;1997年04期
4 孙茂松,邹嘉彦;汉语自动分词研究评述[J];当代语言学;2001年01期
5 王显芳,杜利民;一种能够检测所有交叉歧义的汉语分词算法[J];电子学报;2004年01期
6 刘挺,吴岩,王开铸;最大概率分词问题及其解法[J];哈尔滨工业大学学报;1998年06期
7 陆玉昌,鲁明羽,李凡,周立柱;向量空间法中单词权重函数的分析和构造[J];计算机研究与发展;2002年10期
8 周雅倩,郭以昆,黄萱菁,吴立德;基于最大熵方法的中英文基本名词短语识别[J];计算机研究与发展;2003年03期
9 罗智勇;宋柔;;现代汉语通用分词系统中歧义切分的实用技术[J];计算机研究与发展;2006年06期
10 费洪晓,康松林,朱小娟,谢文彪;基于词频统计的中文分词的研究[J];计算机工程与应用;2005年07期
中国博士学位论文全文数据库 前3条
1 陈海霞;面向数据挖掘的分类器集成研究[D];吉林大学;2006年
2 王树梅;信息检索相关技术研究[D];南京理工大学;2007年
3 钱铁云;关联文本分类关键技术研究[D];华中科技大学;2006年
中国硕士学位论文全文数据库 前4条
1 张校乾;基于Lucene的全文检索系统的研究与应用[D];大连理工大学;2005年
2 龙军;国家科技奖励综合业务处理平台研究[D];中南大学;2005年
3 庞剑锋;基于向量空间模型的自反馈的文本分类系统的研究与实现[D];中国科学院研究生院(计算技术研究所);2001年
4 图格木勒;蒙古语语言资源库建设相关技术研究[D];内蒙古大学;2007年
【二级参考文献】
中国期刊全文数据库 前10条
1 孙茂松,邹嘉彦;汉语自动分词研究评述[J];当代语言学;2001年01期
2 李蓉 ,叶世伟 ,史忠植;SVM-KNN分类器——一种提高SVM分类精度的新方法[J];电子学报;2002年05期
3 刘群,张华平,俞鸿魁,程学旗;基于层叠隐马模型的汉语词法分析[J];计算机研究与发展;2004年08期
4 孙茂松,肖明,邹嘉彦;基于无指导学习策略的无词表条件下的汉语自动分词[J];计算机学报;2004年06期
5 何克抗,徐辉,孙波;书面汉语自动分词专家系统设计原理[J];中文信息学报;1991年02期
6 曹焕光,郑家恒;自动分词软件质量的评价模型[J];中文信息学报;1992年04期
7 娄珽,宋柔,李卫亮,罗智勇;现代汉语分词系统通用接口设计与实现[J];中文信息学报;2001年05期
8 孙茂松,黄昌宁,高海燕,方捷;中文姓名的自动辨识[J];中文信息学报;1995年02期
9 孙茂松,左正平,邹嘉彦;高频最大交集型歧义切分字段在汉语自动分词中的作用[J];中文信息学报;1999年01期
10 陈小荷;用基于词的二元模型消解交集型分词歧义[J];南京师大学报(社会科学版);2004年06期
中国硕士学位论文全文数据库 前1条
1 娄(王廷);现代汉语分词系统通用性设计及切分歧义处理[D];北京工业大学;2000年
【相似文献】
中国期刊全文数据库 前10条
1 ;《计算机应用》征订启事[J];计算机应用;2011年09期
2 ;《计算机应用》征订启事[J];计算机工程与应用;2011年23期
3 王华;;计算机应用对个人社会化的影响[J];社科与经济信息;2000年05期
4 ;投稿须知[J];计算机应用与软件;2011年09期
5 ;投稿须知[J];计算机应用与软件;2011年08期
6 陆倩;程玉凯;;基于VC的学生教务信息管理系统的设计[J];软件;2011年05期
7 崔剑;;软件模拟在计算机应用中的发展变革[J];硅谷;2011年16期
8 张育人;;软件工程学在计算机专业毕业设计中的运用[J];产业与科技论坛;2011年07期
9 孙恺;徐晓刚;;基于WorldWind平台的卫星云图模拟技术研究[J];科学技术与工程;2011年22期
10 王建华;劳金越;;计算机在质检管理工作中的应用[J];中国高新技术企业;2011年19期
中国重要会议论文全文数据库 前10条
1 宋兰;孙茂松;;中文文本全文查重的实验研究[A];全国第八届计算语言学联合学术会议(JSCL-2005)论文集[C];2005年
2 刘汇丹;芮建武;吴健;;藏文网页的编码识别与转换[A];中文信息处理前沿进展——中国中文信息学会二十五周年学术会议论文集[C];2006年
3 徐印才;任立群;段元慧;任俊泉;;输血科智能管理系统的开发与应用[A];第四届全国临床检验学术会议论文汇编[C];2006年
4 陈皓;郑利平;刘晓平;;模板在虚拟现实平台中的应用[A];计算机技术与应用进展——全国第17届计算机科学与技术应用(CACIS)学术会议论文集(上册)[C];2006年
5 唐西隆;;用ToolBook制作多媒体课件的技巧[A];第十五届全国图学教育研讨会暨第七届工程制图CAI课件演示交流会论文集[C];2006年
6 满正行;李应兴;单广荣;于洪志;;网络应用中实现藏文支持的一种方案[A];民族语言文字信息技术研究——第十一届全国民族语言文字信息学术研讨会论文集[C];2007年
7 赵晓波;;基于即时通信的客户服务系统[A];2007年中国通信学会“移动增值业务与应用”学术年会论文集[C];2007年
8 唐永明;王小捷;文娟;;基于关联词的复句语言模型[A];第三届中国智能计算大会论文集[C];2009年
9 朱新河;严新平;萧汉梁;;计算机辅助油液监测数据处理系统[A];第二届全国青年摩擦学学术会议论文专辑[C];1993年
10 彭朝林;;急诊分诊处的计算机应用[A];全国护理临床研究学术交流暨专题讲座会议论文会编[C];2001年
中国重要报纸全文数据库 前10条
1 记者 梁捷;我国中文信息处理技术从实验室走向全面应用[N];光明日报;2009年
2 姚双云 华中师范大学语言与语言教育研究中心;虚词知识库:中文信息处理的基石[N];中国社会科学报;2011年
3 张波 龙雨;中文信息处理国际学术会议在武汉大学召开[N];中国社会科学院院报;2007年
4 记者 韩晓玲通讯员 张波 龙雨;海内外专家聚焦中文信息处理[N];湖北日报;2007年
5 胡唯元;文字编码新标准:不再为“名”所累[N];科技日报;2006年
6 撰文 西南证券;计算机应用服务业,随大势而动[N];上海金融报;2008年
7 许伟;金友兵 破局国外办公套件垄断[N];中国企业报;2008年
8 ;浙江天宇信息技术有限公司[N];中国计算机报;2009年
9 兰文科;浅析计算机应用系统平台建设[N];中国国门时报;2007年
10 ;教育 “一个孩子都不能少”[N];中国电脑教育报;2007年
中国博士学位论文全文数据库 前9条
1 李苏红;基于实体模型的工程图样数字化设计的研究[D];吉林大学;2007年
2 刘杰;泄漏发射的信息重建与防御对策[D];浙江大学;2004年
3 Memon Abdul Ghafoor;[D];浙江大学;2006年
4 刘磊;概念内涵属性计算研究[D];上海交通大学;2011年
5 王建会;中文信息处理中若干关键技术的研究[D];复旦大学;2004年
6 吴应良;网络计算中的智能信息处理方法研究[D];华南理工大学;2000年
7 梁添才;基于认知机理的汉字智能造字研究[D];华南理工大学;2008年
8 卢建平;基于拓扑学和统计学的无字库汉字智能造字研究[D];华南理工大学;2010年
9 江会星;汉语命名实体识别研究[D];北京邮电大学;2012年
中国硕士学位论文全文数据库 前10条
1 王敏;基于改进的隐马尔科夫模型汉语词性标注[D];山西大学;2007年
2 党兰学;汉字语法语义智能输入法总体设计与部分实现[D];河南大学;2006年
3 白晓梅;校园网中文搜索引掣系统的设计与实现[D];吉林大学;2006年
4 曹林峰;中文文字差错率统计软件的实现[D];西安电子科技大学;2007年
5 张玉华;基于码本的输入法评测系统的设计和实现[D];苏州大学;2005年
6 杜莹;汉字语法语义智能输入法核心算法及实现技术[D];河南大学;2006年
7 徐瑞;一个中文语义语料库的研究与建设[D];苏州大学;2006年
8 沈威;基于渡越矩阵与语境计算模型的复句关系词的自动标注[D];华中师范大学;2007年
9 罗丽俊;中文信息处理中若干技术的研究与实现[D];辽宁科技大学;2008年
10 毋琳;特定领域问答系统中通用语义理解框架的设计与实现[D];河南大学;2007年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62791813
  • 010-62985026