收藏本站
《情报学报》 1998年05期
加入收藏 投稿

基于两字词簇的汉语快速自动分词算法

郭祥昊  钟义信  杨丽  
【摘要】:本文提出了一种快速汉语自动分词算法。其主要思想是利用汉语中两字词占75%的统计规律,提出了两字词根和两字词簇的概念。算法把三音节以上的词用两字词簇来压缩处理,也就是把长词的扫描范围限定在词汇量很小的词簇内,从而不仅提高了分词速度,而且彻底解决了传统最大匹配分词算法中最大匹配词长的设定问题。另外,本文还提出了用两字词簇快速检测交叉歧义的算法。本文的分词算法简洁、速度快、易于实现
【作者单位】北京邮电大学人工智能实验室 北方交通大学
【关键词】自然语言处理 分词算法 切分歧义
【分类号】:G254.0
【正文快照】:
1问题的提出自动分词是汉语自然语言处理的第一步。目前,汉语自然语言处理的应用系统处理对象越来越多的是大规模语料(如Internet信息搜索引擎,各种全文检索系统等),因此分词的速度和分词算法的易实现性变得相当关键。在多种分词算法中,正向最大匹配分词算法

【引证文献】
中国期刊全文数据库 前10条
1 于源,衣袭;中文全切分快速分词方法[J];大连铁道学院学报;2005年02期
2 陈桂林,王永成,韩客松,王刚;一种高效的中文电子词表数据结构[J];计算机研究与发展;2000年01期
3 陈桂林,王永成,韩客松,王刚;一种改进的快速分词算法[J];计算机研究与发展;2000年04期
4 金瑜,陆启明,高峰;基于上下文相关的最大概率汉语自动分词算法[J];计算机工程;2004年16期
5 温滔,朱巧明,吕强;一种快速汉语分词算法[J];计算机工程;2004年19期
6 杨建林;全文检索研究[J];情报理论与实践;2000年01期
7 杨建林,张国梁;基于词链的自动分词方法[J];情报理论与实践;2000年02期
8 李梅,王庆林;中文全文检索技术的研究及实现[J];情报学报;2003年01期
9 李大农,董慧;汉语分词有向图的快速生成算法[J];情报学报;2004年01期
10 冯书晓,徐新,杨春梅;国内中文分词技术研究新进展[J];情报杂志;2002年11期
中国重要会议论文全文数据库 前1条
1 朱晓丹;刁倩;周富秋;;汉语词语的两字hash算法[A];自然语言理解与机器翻译——全国第六届计算语言学联合学术会议论文集[C];2001年
中国博士学位论文全文数据库 前2条
1 王兰成;基于XMARC信息描述的知识标引与概念检索研究[D];东华大学;2004年
2 滕伟;面向Web信息集成的Web信息抽取中若干关键问题的研究[D];上海交通大学;2007年
中国硕士学位论文全文数据库 前10条
1 李辉阳;面向CAI的简述文字判读技术及其应用研究[D];湘潭大学;2002年
2 刘钢;基于神经网络的文本分类系统NNTCS的设计和实现[D];中国科学院研究生院(软件研究所);2003年
3 于波;中文全文检索技术研究[D];华中师范大学;2003年
4 袁宏;基于移动Agent的中文信息搜索引擎系统模型的研究[D];沈阳工业大学;2003年
5 罗小虎;基于蚁群算法的汉语自动分词的研究与实现[D];苏州大学;2004年
6 夏洪斌;基于知识分词算法的病案全文检索系统[D];第二军医大学;2004年
7 温滔;自适应歧义切分的汉语分词系统的设计与实现[D];苏州大学;2005年
8 王广正;基于知网语义相关度计算的汉语自动分词方法的研究[D];云南师范大学;2006年
9 胡明耀;数据库汉语自然语言查询接口设计与实现[D];四川大学;2006年
10 赵会杰;中文全文检索系统中索引的研究[D];北京交通大学;2007年
【参考文献】
中国期刊全文数据库 前4条
1 王晓龙,王开铸,李仲荣,白小华;最少分词问题及其解法[J];科学通报;1989年13期
2 骆正清,陈增武,胡上序;一种改进的MM分词方法的算法设计[J];中文信息学报;1996年03期
3 张民,李生,王海峰,赵铁军,王铁志;基于知识评价的快速汉语自动分词系统[J];情报学报;1996年02期
4 苏新宁;汉语词切分标引算法的改进[J];情报学报;1996年06期
【共引文献】
中国期刊全文数据库 前10条
1 朱靖波,姚天顺;中文信息自动抽取[J];东北大学学报(自然科学版);1998年01期
2 孙茂松,邹嘉彦;汉语自动分词研究评述[J];当代语言学;2001年01期
3 王秀坤,李政,简幼良,刘剑;基于Hash方法的机器翻译词典的组织与构造[J];大连理工大学学报;1996年03期
4 亢临生,张永奎;利用分词属性解决歧义切分[J];电脑开发与应用;1994年04期
5 刘利东;基于组合度的汉语分词决策算法研究[J];德州学院学报;2003年02期
6 苏芳仲,林世平;Web文本挖掘中的一种中文分词算法研究及其实现[J];福州大学学报(自然科学版);2004年S1期
7 徐志明,王晓龙,姜守旭;一种语句级汉字输入技术的研究[J];高技术通讯;2000年01期
8 陈桂林,王永成;Internet网络信息自动摘要的研究[J];高技术通讯;1999年02期
9 王轩,王晓龙,藏晓莉;统计与规则相结合的计算机音字相互转换技术[J];哈尔滨工业大学学报;1997年04期
10 刘挺,吴岩,王开铸;最大概率分词问题及其解法[J];哈尔滨工业大学学报;1998年06期
中国重要会议论文全文数据库 前1条
1 隋岩;张普;;基于“动态流通语料库”进行“有效字符串”提取的初步研究[A];自然语言理解与机器翻译——全国第六届计算语言学联合学术会议论文集[C];2001年
中国博士学位论文全文数据库 前10条
1 王强军;基于动态流通语料库(DCC)的信息技术领域新术语自动提取研究[D];北京语言文化大学;2003年
2 王兰成;基于XMARC信息描述的知识标引与概念检索研究[D];东华大学;2004年
3 孙越恒;基于统计的NLP技术在中文信息检索中的应用研究[D];天津大学;2005年
4 贺前华;汉语自动分词及机器翻译研究[D];华南理工大学;1993年
5 吴应良;网络计算中的智能信息处理方法研究[D];华南理工大学;2000年
6 刘涛;现代信息检索中的文本分类及图像恢复研究[D];北京邮电大学;2006年
7 冯敏萱;论汉英平行语料的平行处理[D];南京师范大学;2006年
8 宗成庆;音字转换与句子规范化处理研究[D];中国科学院研究生院(计算技术研究所);1998年
9 章森;基于SC文法的文语转换系统的研究[D];中国科学院研究生院(计算技术研究所);1998年
10 张大军;汉语文语转换系统HJ-TTS关键技术的研究与实现[D];中国科学院研究生院(计算技术研究所);2000年
中国硕士学位论文全文数据库 前10条
1 李朝阳;经济文献数据库计算机标引研究[D];南京农业大学;2000年
2 唐志文;搜索引擎中数据对象研究[D];湖南大学;2001年
3 朱毅华;智能搜索引擎中的同义词识别算法研究[D];南京农业大学;2001年
4 马东坡;Internet中文智能搜索引擎汉语自动分词系统设计[D];广西师范大学;2002年
5 许林杰;中文文本分词研究[D];山东师范大学;2003年
6 王丁;基于中文文本分类的自动诊病系统[D];哈尔滨理工大学;2003年
7 袁宏;基于移动Agent的中文信息搜索引擎系统模型的研究[D];沈阳工业大学;2003年
8 李海林;自然语言理解及其在机务信息规范化中的应用[D];南京航空航天大学;2004年
9 吴福英;面向用户的信息过滤研究与实现[D];江西师范大学;2004年
10 罗小虎;基于蚁群算法的汉语自动分词的研究与实现[D];苏州大学;2004年
【同被引文献】
中国期刊全文数据库 前10条
1 丁丰,董娜,林碧琴,袁保宗;自然语言处理系统中自动分词的研究[J];北方交通大学学报;1999年06期
2 穗志方,俞士汶;汉语单句谓语中心词识别知识的获取及应用[J];北京大学学报(自然科学版);1998年Z1期
3 王小捷,钟义信;认知语言学的两个问题[J];北京邮电大学学报;1998年03期
4 孙福良,邱登梅;CAI课件开放性的探讨[J];高等工程教育研究;1999年01期
5 王永成,许慧敏;OA-1.4 版中文自动摘要系统[J];高技术通讯;1998年01期
6 王永成,张坤;中文二次文献自动生成系统的开发[J];高技术通讯;1998年02期
7 陈桂林,王永成;Internet网络信息自动摘要的研究[J];高技术通讯;1999年02期
8 郭艳华,周昌乐;自然语言理解研究综述[J];杭州电子工业学院学报;2000年01期
9 魏长华;人类自然语言的不确定性及其处理原则[J];华中师范大学学报(自然科学版);1998年02期
10 李辉阳,韩忠愿;有限领域简述文字的自动判读及其在CAI中的应用[J];计算机工程与应用;2002年08期
中国硕士学位论文全文数据库 前10条
1 王省;基地统计和规则的中文姓名识别系统的研制[D];大连理工大学;2000年
2 朱珣;中文自动分词系统的研究[D];华中师范大学;2004年
3 罗小虎;基于蚁群算法的汉语自动分词的研究与实现[D];苏州大学;2004年
4 赵鹏;基于数据压缩的信息检索技术的研究[D];黑龙江大学;2002年
5 徐蓉;实时系统的内存管理技术研究与实现[D];电子科技大学;2004年
6 夏洪斌;基于知识分词算法的病案全文检索系统[D];第二军医大学;2004年
7 徐松涛;一个基于qmail的电子邮件系统的设计实现[D];大连海事大学;2003年
8 刘钢;基于神经网络的文本分类系统NNTCS的设计和实现[D];中国科学院研究生院(软件研究所);2003年
9 许彦彬;基于Java技术的生物资源专业搜索引擎的研究与开发[D];昆明理工大学;2004年
10 周志军;中文邮件分类系统的研究及其实现[D];苏州大学;2005年
【二级引证文献】
中国期刊全文数据库 前10条
1 刘华;;关键词自动标引系统实现[J];现代图书情报技术;2006年02期
2 蒋斌;杨超;赵欢;;基于二字词位图表的汉语自动分词词典机制[J];湖南大学学报(自然科学版);2006年01期
3 马光志,李专;基于特征词的自动分词研究[J];华中科技大学学报(自然科学版);2003年03期
4 李向阳,张亚非;一种Hash高速分词算法[J];解放军理工大学学报(自然科学版);2004年02期
5 陈桂林,王永成,韩客松,王刚;一种改进的快速分词算法[J];计算机研究与发展;2000年04期
6 滕伟,王永成;智能代理技术在新一代搜索引擎中的应用[J];计算机工程;2000年S1期
7 温滔,朱巧明,吕强;一种快速汉语分词算法[J];计算机工程;2004年19期
8 韩客松,王永成,沈洲,吴芳芳;三个层面的中文文本主题自动提取研究[J];中文信息学报;2001年04期
9 韩客松,王永成,滕伟;Web页面中文文本主题的自动提取研究[J];情报学报;2001年02期
10 李大农,董慧;汉语分词有向图的快速生成算法[J];情报学报;2004年01期
中国重要会议论文全文数据库 前4条
1 陈晓苏;邹园斌;张文珂;;全切分图与路径表达式在分词算法中的应用[A];第三届学生计算语言学研讨会论文集[C];2006年
2 朱晓丹;刁倩;周富秋;;汉语词语的两字hash算法[A];自然语言理解与机器翻译——全国第六届计算语言学联合学术会议论文集[C];2001年
3 杨超;李仁发;蒋斌;;一种高效的汉语自动分词词典机制[A];NCIRCS2004第一届全国信息检索与内容安全学术会议论文集[C];2004年
4 王虎;王潜平;;对整词二分自动分词机制的改进[A];中国计算技术与语言问题研究——第七届中文信息处理国际会议论文集[C];2007年
中国博士学位论文全文数据库 前6条
1 钱铁云;关联文本分类关键技术研究[D];华中科技大学;2006年
2 刘少辉;知识发现中粗糙集理论的研究[D];中国科学院研究生院(计算技术研究所);2003年
3 梅翔;语义检索中若干关键问题的研究[D];北京邮电大学;2007年
4 孙越恒;基于统计的NLP技术在中文信息检索中的应用研究[D];天津大学;2005年
5 刘涛;现代信息检索中的文本分类及图像恢复研究[D];北京邮电大学;2006年
6 胡燕;基于Web信息抽取的专业知识获取方法研究[D];武汉理工大学;2007年
中国硕士学位论文全文数据库 前10条
1 李志博;邮件服务智能代理的研究[D];武汉理工大学;2007年
2 王志玲;基于神经网络的文本自动分类系统研究[D];山东理工大学;2007年
3 丁邦旭;基于P2P的分布式中文搜索引擎的应用研究[D];南昌大学;2006年
4 张玲玲;分布式WEB文档全文索引关键技术研究[D];哈尔滨工业大学;2006年
5 闻博;基于Google Desktop的教育资源库全文检索系统研究[D];东北师范大学;2007年
6 刘宾;基于移动Agent的主题搜索引擎研究[D];上海海事大学;2006年
7 张敏;生物学文献的自动标引系统的研究与开发[D];东华大学;2006年
8 苏捷;数字图书馆中MARC格式转换问题的研究[D];太原理工大学;2006年
9 王广正;基于知网语义相关度计算的汉语自动分词方法的研究[D];云南师范大学;2006年
10 赵会杰;中文全文检索系统中索引的研究[D];北京交通大学;2007年
【二级参考文献】
中国期刊全文数据库 前8条
1 关英春;秦蓓;;汉字自动统计系统CWSS[J];计算机研究与发展;1985年12期
2 揭春雨 ,刘源 ,梁南元;论汉语自动分词方法[J];中文信息学报;1989年01期
3 梁南元;汉语计算机自动分词知识[J];中文信息学报;1990年02期
4 何克抗,徐辉,孙波;书面汉语自动分词专家系统设计原理[J];中文信息学报;1991年02期
5 揭春雨,刘源,梁南元;汉语自动分词实用系统CASS的设计和实现[J];中文信息学报;1991年04期
6 韩世欣,王开铸;基于短语结构文法的分词研究[J];中文信息学报;1992年03期
7 徐秉铮,詹剑,贺前华;基于神经网络的分词方法[J];中文信息学报;1993年02期
8 张民,李生,赵铁军,周明,邱祥辉,毛成江;CEMT-Ⅲ汉英机器翻译系统的研究[J];情报学报;1994年01期
【相似文献】
中国期刊全文数据库 前10条
1 关英春;秦蓓;;汉字自动统计系统CWSS[J];计算机研究与发展;1985年12期
2 李国臣,刘开瑛,张永奎;汉语自动分词及歧义组合结构的处理[J];中文信息学报;1988年03期
3 韩世欣,王开铸;基于短语结构文法的分词研究[J];中文信息学报;1992年03期
4 曹焕光,郑家恒;自动分词软件质量的评价模型[J];中文信息学报;1992年04期
5 蔡莲红,魏华武;汉语文-语转换系统的研究与实现[J];应用声学;1994年06期
6 亢临生,张永奎;利用分词属性解决歧义切分[J];电脑开发与应用;1994年04期
7 亢临生,张永奎;基于标记的分词算法[J];山西大学学报(自然科学版);1994年03期
8 王兵,苏恩泽;具有学习功能的书面汉语自动分词系统[J];计算机工程;1995年04期
9 叶新明;基于《中图法》的中文文献自动分类[J];情报学报;1995年06期
10 张民,李生,王海峰,赵铁军,王铁志;基于知识评价的快速汉语自动分词系统[J];情报学报;1996年02期
中国重要会议论文全文数据库 前10条
1 魏华武;蔡莲红;;汉语普通话全音语句合成系统及其语音编码方法[A];第二届全国人机语音通讯学术会议论文集[C];1992年
2 孙玉琦;张凯;王晓龙;徐志明;;基于规则和统计相结合的多音字研究[A];第五届全国人机语音通讯学术会议论文集[C];1998年
3 廉竹钧;;汉语组合型切分歧义字段消歧方法研究[A];第一届学生计算语言学研讨会论文集[C];2002年
4 黄昌宁;高剑峰;李沐;;对自动分词的反思[A];语言计算与基于内容的文本处理——全国第七届计算语言学联合学术会议论文集[C];2003年
5 杨超;李仁发;蒋斌;;一种高效的汉语自动分词词典机制[A];NCIRCS2004第一届全国信息检索与内容安全学术会议论文集[C];2004年
6 肖航;靳光瑾;;现代汉语词语切分歧义库构建[A];第三届全国语言文字应用学术研讨会论文集[C];2004年
7 曾华琳;史晓东;李堂秋;;基于上下文信息提取的概率分词算法[A];第六届汉语词汇语义学研讨会论文集[C];2005年
8 林小俊;田浩;王馨浩;杜蕴璇;许敏;吴玺宏;迟惠生;;语言模型训练语料处理方法及解码词典的设计[A];第八届全国人机语音通讯学术会议论文集[C];2005年
9 陈晓苏;邹园斌;张文珂;;全切分图与路径表达式在分词算法中的应用[A];第三届学生计算语言学研讨会论文集[C];2006年
10 苏亮;孙斌;;一种基于Lucene的Hash改进中文分词算法的实现[A];2007通信理论与技术新发展——第十二届全国青年通信学术会议论文集(上册)[C];2007年
中国博士学位论文全文数据库 前2条
1 郑逢斌;关于计算机理解自然查询语言的研究[D];西南交通大学;2004年
2 孙越恒;基于统计的NLP技术在中文信息检索中的应用研究[D];天津大学;2005年
中国硕士学位论文全文数据库 前10条
1 王浩;基于概念关联和作者关联的科技论文检索研究[D];中南大学;2002年
2 王崑崙;中文网页自动分类的一种实现[D];大连理工大学;2002年
3 高雷;网络智能过滤系统的设计与实现[D];广东工业大学;2003年
4 袁宏;基于移动Agent的中文信息搜索引擎系统模型的研究[D];沈阳工业大学;2003年
5 张春国;工艺语句汉英计算机辅助翻译系统关键技术研究[D];南京航空航天大学;2004年
6 徐爱华;面向文本分类的中文文本挖掘技术研究及实现[D];武汉理工大学;2004年
7 刘卓;基于KNN算法的中文文本自动分类[D];吉林大学;2004年
8 于爱军;NERMS中基于Internet的搜索引擎研究与实现[D];吉林大学;2004年
9 朱珣;中文自动分词系统的研究[D];华中师范大学;2004年
10 张会鹏;中文词法分析技术的研究与实现[D];哈尔滨工业大学;2006年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62791813
  • 010-62985026