收藏本站
《情报学报》 1998年05期
加入收藏 投稿

基于两字词簇的汉语快速自动分词算法

郭祥昊  钟义信  杨丽  
【摘要】:本文提出了一种快速汉语自动分词算法。其主要思想是利用汉语中两字词占75%的统计规律,提出了两字词根和两字词簇的概念。算法把三音节以上的词用两字词簇来压缩处理,也就是把长词的扫描范围限定在词汇量很小的词簇内,从而不仅提高了分词速度,而且彻底解决了传统最大匹配分词算法中最大匹配词长的设定问题。另外,本文还提出了用两字词簇快速检测交叉歧义的算法。本文的分词算法简洁、速度快、易于实现
【作者单位】北京邮电大学人工智能实验室 北方交通大学
【关键词】自然语言处理 分词算法 切分歧义
【分类号】:G254.0
【正文快照】:
1问题的提出自动分词是汉语自然语言处理的第一步。目前,汉语自然语言处理的应用系统处理对象越来越多的是大规模语料(如Internet信息搜索引擎,各种全文检索系统等),因此分词的速度和分词算法的易实现性变得相当关键。在多种分词算法中,正向最大匹配分词算法

【引证文献】
中国期刊全文数据库 前10条
1 官礼和,杨刚,李永礼;基于词典的法律案例自动归类系统的开发[J];重庆交通学院学报;2004年01期
2 于源,衣袭;中文全切分快速分词方法[J];大连铁道学院学报;2005年02期
3 李艳欣;;搜索引擎中中文分词的研究[J];电脑知识与技术(学术交流);2007年08期
4 陈桂林,王永成,韩客松,王刚;一种高效的中文电子词表数据结构[J];计算机研究与发展;2000年01期
5 陈桂林,王永成,韩客松,王刚;一种改进的快速分词算法[J];计算机研究与发展;2000年04期
6 金瑜,陆启明,高峰;基于上下文相关的最大概率汉语自动分词算法[J];计算机工程;2004年16期
7 温滔,朱巧明,吕强;一种快速汉语分词算法[J];计算机工程;2004年19期
8 方逵;罗武;王玉娟;卜伟琼;;中文农业专业分词器设计与实现[J];农业工程;2012年03期
9 杨建林;全文检索研究[J];情报理论与实践;2000年01期
10 杨建林,张国梁;基于词链的自动分词方法[J];情报理论与实践;2000年02期
中国重要会议论文全文数据库 前1条
1 朱晓丹;刁倩;周富秋;;汉语词语的两字hash算法[A];自然语言理解与机器翻译——全国第六届计算语言学联合学术会议论文集[C];2001年
中国博士学位论文全文数据库 前4条
1 王兰成;基于XMARC信息描述的知识标引与概念检索研究[D];东华大学;2004年
2 滕伟;面向Web信息集成的Web信息抽取中若干关键问题的研究[D];上海交通大学;2007年
3 陈博;WEB文本情感分类中关键问题的研究[D];北京邮电大学;2008年
4 宣照国;文本挖掘算法及其在知识管理中的应用研究[D];大连理工大学;2008年
中国硕士学位论文全文数据库 前10条
1 蔡蕊;一种新的搜索引擎分词词典的研究[D];山东大学;2010年
2 高勇;校园网数字资源搜索引擎的技术研究与实现[D];解放军信息工程大学;2008年
3 李辉阳;面向CAI的简述文字判读技术及其应用研究[D];湘潭大学;2002年
4 刘钢;基于神经网络的文本分类系统NNTCS的设计和实现[D];中国科学院研究生院(软件研究所);2003年
5 于波;中文全文检索技术研究[D];华中师范大学;2003年
6 袁宏;基于移动Agent的中文信息搜索引擎系统模型的研究[D];沈阳工业大学;2003年
7 罗小虎;基于蚁群算法的汉语自动分词的研究与实现[D];苏州大学;2004年
8 夏洪斌;基于知识分词算法的病案全文检索系统[D];第二军医大学;2004年
9 温滔;自适应歧义切分的汉语分词系统的设计与实现[D];苏州大学;2005年
10 王广正;基于知网语义相关度计算的汉语自动分词方法的研究[D];云南师范大学;2006年
【参考文献】
中国期刊全文数据库 前5条
1 王晓龙,王开铸,李仲荣,白小华;最少分词问题及其解法[J];科学通报;1989年13期
2 姚天顺,张桂平,吴映明;基于规则的汉语自动分词系统[J];中文信息学报;1990年01期
3 骆正清,陈增武,胡上序;一种改进的MM分词方法的算法设计[J];中文信息学报;1996年03期
4 张民,李生,王海峰,赵铁军,王铁志;基于知识评价的快速汉语自动分词系统[J];情报学报;1996年02期
5 苏新宁;汉语词切分标引算法的改进[J];情报学报;1996年06期
【共引文献】
中国期刊全文数据库 前10条
1 葛宇;梁静;陈晓敏;;搜索引擎系统中热点问题的探讨[J];成都电子机械高等专科学校学报;2009年04期
2 朱靖波,姚天顺;中文信息自动抽取[J];东北大学学报;1998年01期
3 赵春红;高希龙;王柠;赵威;刘国华;;一种应用分治策略的中文分词方法[J];燕山大学学报;2009年05期
4 孙茂松,邹嘉彦;汉语自动分词研究评述[J];当代语言学;2001年01期
5 王秀坤,李政,简幼良,刘剑;基于Hash方法的机器翻译词典的组织与构造[J];大连理工大学学报;1996年03期
6 亢临生,张永奎;利用分词属性解决歧义切分[J];电脑开发与应用;1994年04期
7 刘利东;信息源中专业词语的提取方法[J];德州学院学报(自然科学版);2002年02期
8 刘利东;基于组合度的汉语分词决策算法研究[J];德州学院学报(自然科学版);2003年02期
9 张敏;;中文垂直搜索引擎研究与实现[J];福建电脑;2010年06期
10 苏芳仲,林世平;Web文本挖掘中的一种中文分词算法研究及其实现[J];福州大学学报(自然科学版);2004年S1期
中国重要会议论文全文数据库 前4条
1 隋岩;张普;;基于“动态流通语料库”进行“有效字符串”提取的初步研究[A];自然语言理解与机器翻译——全国第六届计算语言学联合学术会议论文集[C];2001年
2 李寿山;黄居仁;;基于词边界分类的中文分词方法[A];中国计算机语言学研究前沿进展(2007-2009)[C];2009年
3 赵伟;路永刚;吴琼;;一种新的基于BMM和RMM分词方法的研究与实现[A];第二十三届中国数据库学术会议论文集(技术报告篇)[C];2006年
4 修驰;宋柔;;基于“大词”实例的中文分词研究[A];中国计算语言学研究前沿进展(2009-2011)[C];2011年
中国博士学位论文全文数据库 前10条
1 王强军;基于动态流通语料库(DCC)的信息技术领域新术语自动提取研究[D];北京语言文化大学;2003年
2 王兰成;基于XMARC信息描述的知识标引与概念检索研究[D];东华大学;2004年
3 孙越恒;基于统计的NLP技术在中文信息检索中的应用研究[D];天津大学;2005年
4 贺前华;汉语自动分词及机器翻译研究[D];华南理工大学;1993年
5 吴应良;网络计算中的智能信息处理方法研究[D];华南理工大学;2000年
6 刘涛;现代信息检索中的文本分类及图像恢复研究[D];北京邮电大学;2006年
7 冯敏萱;论汉英平行语料的平行处理[D];南京师范大学;2006年
8 宗成庆;音字转换与句子规范化处理研究[D];中国科学院研究生院(计算技术研究所);1998年
9 章森;基于SC文法的文语转换系统的研究[D];中国科学院研究生院(计算技术研究所);1998年
10 张大军;汉语文语转换系统HJ-TTS关键技术的研究与实现[D];中国科学院研究生院(计算技术研究所);2000年
中国硕士学位论文全文数据库 前10条
1 陈旭;地理编码引擎的设计与实现[D];辽宁工程技术大学;2009年
2 李丹;基于规则与统计的汉语自动分词研究[D];长春工业大学;2010年
3 蔡蕊;一种新的搜索引擎分词词典的研究[D];山东大学;2010年
4 刘冰凌;基于正向最大匹配算法的优化算法ImpFMMseg的实现[D];中南民族大学;2010年
5 范敏敏;企业经营范围字段自动分类方法研究[D];哈尔滨工业大学;2010年
6 付敏;一个改进的中文分词算法及其在Lucene中的应用[D];华中科技大学;2010年
7 李朝阳;经济文献数据库计算机标引研究[D];南京农业大学;2000年
8 唐志文;搜索引擎中数据对象研究[D];湖南大学;2001年
9 朱毅华;智能搜索引擎中的同义词识别算法研究[D];南京农业大学;2001年
10 马东坡;Internet中文智能搜索引擎汉语自动分词系统设计[D];广西师范大学;2002年
【同被引文献】
中国期刊全文数据库 前10条
1 赵生慧,陈桂林;基于网格技术的校园网资源共享探讨[J];安徽大学学报(自然科学版);2004年04期
2 陈明;论科技期刊论文的主题标引[J];安徽农业技术师范学院学报;1999年04期
3 高迎,王丽君,王锡钢;Simutem:一个中文信息检索系统[J];鞍山师范学院学报;2001年03期
4 宋智礼,余生晨,刘凡美,薛阳;应用网格技术实现校园网资源共享模型的研究[J];北方工业大学学报;2004年01期
5 丁丰,董娜,林碧琴,袁保宗;自然语言处理系统中自动分词的研究[J];北方交通大学学报;1999年06期
6 罗万;彭泽润;;GH高浓缩汉语拼写方案及其原理[J];北华大学学报(社会科学版);2006年06期
7 穗志方,俞士汶;汉语单句谓语中心词识别知识的获取及应用[J];北京大学学报(自然科学版);1998年Z1期
8 龚汉明,周长胜;汉语分词技术综述[J];北京机械工业学院学报;2004年03期
9 李源,何清,史忠植;基于概念语义空间的联想检索[J];北京科技大学学报;2001年06期
10 曹元大,贺海军,涂哲明;中文Web文档全文检索系统的设计及实现[J];北京理工大学学报;2002年01期
中国硕士学位论文全文数据库 前10条
1 王省;基地统计和规则的中文姓名识别系统的研制[D];大连理工大学;2000年
2 赵鹏;基于数据压缩的信息检索技术的研究[D];黑龙江大学;2002年
3 徐松涛;一个基于qmail的电子邮件系统的设计实现[D];大连海事大学;2003年
4 刘钢;基于神经网络的文本分类系统NNTCS的设计和实现[D];中国科学院研究生院(软件研究所);2003年
5 朱珣;中文自动分词系统的研究[D];华中师范大学;2004年
6 许彦彬;基于Java技术的生物资源专业搜索引擎的研究与开发[D];昆明理工大学;2004年
7 徐蓉;实时系统的内存管理技术研究与实现[D];电子科技大学;2004年
8 罗小虎;基于蚁群算法的汉语自动分词的研究与实现[D];苏州大学;2004年
9 夏洪斌;基于知识分词算法的病案全文检索系统[D];第二军医大学;2004年
10 李卫红;一种新的并发分词算法的研究与实现[D];山东大学;2005年
【二级引证文献】
中国期刊全文数据库 前10条
1 高艳萍;于红;尹祥贵;綦孝姬;王春永;赵志强;;基于双数组Trie树的渔业领域分词研究[J];安徽农业科学;2008年11期
2 吕建辉;技术引发的革命:图书馆在新世纪的变革[J];图书与情报;2001年03期
3 文庭孝;汉语自动分词研究进展[J];图书与情报;2005年05期
4 隋毅;廖建新;朱晓民;王纯;;彩铃的语音搜索功能设计与实现[J];北京工商大学学报(自然科学版);2007年06期
5 黎孟雄;;基于移动Agent的教学资源智能采集系统的研究[J];长春大学学报;2010年12期
6 周蕾;;基于碎片分词的未登录词识别方法[J];常熟理工学院学报;2007年02期
7 刘春辉;金顺福;刘国华;李颖;;基于优化最大匹配与统计结合的汉语分词方法[J];燕山大学学报;2009年02期
8 赵春红;高希龙;王柠;赵威;刘国华;;一种应用分治策略的中文分词方法[J];燕山大学学报;2009年05期
9 高洁羽,吕强,杨季文,钱培德;自动分词在输入法测试系统中的应用[J];电化教育研究;2003年02期
10 陈晓柱;曾莹;;自动分词在智能答疑系统中的作用[J];电脑知识与技术(学术交流);2007年11期
中国重要会议论文全文数据库 前9条
1 王建民;陈佳鹏;由芳;丁卫彬;;嵌入式电子词典快速查询模型的研究与设计[A];第四届和谐人机环境联合学术会议论文集[C];2008年
2 朱晓丹;刁倩;周富秋;;汉语词语的两字hash算法[A];自然语言理解与机器翻译——全国第六届计算语言学联合学术会议论文集[C];2001年
3 杨超;李仁发;蒋斌;;一种高效的汉语自动分词词典机制[A];NCIRCS2004第一届全国信息检索与内容安全学术会议论文集[C];2004年
4 陈晓苏;邹园斌;张文珂;;全切分图与路径表达式在分词算法中的应用[A];第三届学生计算语言学研讨会论文集[C];2006年
5 王虎;王潜平;;对整词二分自动分词机制的改进[A];中国计算技术与语言问题研究——第七届中文信息处理国际会议论文集[C];2007年
6 田生伟;吐尔根·依布拉音;禹龙;买合木提·木合买提;艾山·吾买尔;;EBMT中加权的维吾尔单词哈希表构造算法[A];第四届全国信息检索与内容安全学术会议论文集(上)[C];2008年
7 陈丕海;冯建华;邢春晓;郑晓慧;;SiteSearch的关键技术分析及汉化设计[A];第十八届全国数据库学术会议论文集(研究报告篇)[C];2001年
8 赵伟;路永刚;吴琼;;一种新的基于BMM和RMM分词方法的研究与实现[A];第二十三届中国数据库学术会议论文集(技术报告篇)[C];2006年
9 李乐强;唐常杰;左劼;邱源枞;段磊;李川;;基于同现度和自学习的中文字符组合发现[A];第二十四届中国数据库学术会议论文集(研究报告篇)[C];2007年
中国博士学位论文全文数据库 前10条
1 李滨;自然空间查询语言解译机制研究[D];解放军信息工程大学;2009年
2 孙越恒;基于统计的NLP技术在中文信息检索中的应用研究[D];天津大学;2005年
3 刘涛;现代信息检索中的文本分类及图像恢复研究[D];北京邮电大学;2006年
4 刘少辉;知识发现中粗糙集理论的研究[D];中国科学院研究生院(计算技术研究所);2003年
5 雷震;基于事件的新闻报道分析技术研究[D];国防科学技术大学;2006年
6 梅翔;语义检索中若干关键问题的研究[D];北京邮电大学;2007年
7 钱铁云;关联文本分类关键技术研究[D];华中科技大学;2006年
8 胡燕;基于Web信息抽取的专业知识获取方法研究[D];武汉理工大学;2007年
9 李志国;面向分布式文本知识管理的中文分词与文本分类研究[D];重庆大学;2008年
10 陈圣兵;基于商空间理论的海量信息检索模型的研究[D];安徽大学;2010年
中国硕士学位论文全文数据库 前10条
1 刘国峰;数据模板匹配研究及在社保审计中的应用[D];哈尔滨工程大学;2010年
2 刘靖媛;个性搜索引擎中用户兴趣模型研究[D];哈尔滨工程大学;2010年
3 孔胜;文本资源的知识抽取研究[D];大连理工大学;2010年
4 黄勇杰;基于统计NLP技术的甲骨卜辞的分析研究[D];华东师范大学;2010年
5 杨鼎;基于朴素贝叶斯的中文文本情感倾向分类研究[D];湖南工业大学;2010年
6 钟鸿鹏;基于时态信息的网页排序系统的研究与实现[D];华南理工大学;2010年
7 郭瞳康;基于词典的中文分词技术研究[D];哈尔滨理工大学;2010年
8 徐德玉;中文文档内容相似度检测方法研究[D];长春工业大学;2010年
9 李丹;基于规则与统计的汉语自动分词研究[D];长春工业大学;2010年
10 胡少荣;一种舆情信息预处理平台的研究与实现[D];北京交通大学;2010年
【二级参考文献】
中国期刊全文数据库 前10条
1 梁南元;书面汉语的自动分词与一个自动分词系统—CDWS[J];北京航空学院学报;1984年04期
2 关英春;秦蓓;;汉字自动统计系统CWSS[J];计算机研究与发展;1985年12期
3 张国煊,王小华,周必水;快速书面汉语自动分词系统及其算法设计[J];计算机研究与发展;1993年01期
4 刘源,梁南元;汉语处理的基础工程——现代汉语词频统计[J];中文信息学报;1986年01期
5 关英春 ,秦蓓;汉语文字自动统计系统CWSS[J];中文信息学报;1986年01期
6 梁南元;书面汉语自动分词系统—CDWS[J];中文信息学报;1987年02期
7 揭春雨 ,刘源 ,梁南元;论汉语自动分词方法[J];中文信息学报;1989年01期
8 姚天顺,张桂平,吴映明;基于规则的汉语自动分词系统[J];中文信息学报;1990年01期
9 梁南元;汉语计算机自动分词知识[J];中文信息学报;1990年02期
10 何克抗,徐辉,孙波;书面汉语自动分词专家系统设计原理[J];中文信息学报;1991年02期
【相似文献】
中国期刊全文数据库 前10条
1 李学俊;;基于分词算法&VSM的文本主观题自动评分算法研究[J];电脑知识与技术;2011年25期
2 于兴艳;孔真;;浅析基于web的跨语言信息检索之现状[J];信息通信;2011年04期
3 黄长伟;;自动文摘技术研究现状分析[J];中外企业家;2011年14期
4 刘一宁;;学术定义抽取研究综述[J];情报探索;2011年08期
5 杨皓东;江凌;李国俊;;国内自然语言处理研究热点分析——基于共词分析[J];图书情报工作;2011年10期
6 史晓东;卢亚军;;央金藏文分词系统[J];中文信息学报;2011年04期
7 ;Web 2.0下一步:电脑自动剖析信息[J];黄金时代;2009年03期
8 王利鑫;耿焕同;孙凯;张茜;;基于自然语言处理的文本泄密自动检测技术[J];计算机工程与设计;2011年08期
9 安见才让;;藏语句子相似度算法的研究[J];中文信息学报;2011年04期
10 刘兴林;郑启伦;马千里;;中文合成词识别及分词修正[J];计算机应用研究;2011年08期
中国重要会议论文全文数据库 前10条
1 林小俊;田浩;王馨浩;杜蕴璇;许敏;吴玺宏;迟惠生;;语言模型训练语料处理方法及解码词典的设计[A];第八届全国人机语音通讯学术会议论文集[C];2005年
2 支流;段慧明;朱学锋;俞士汶;;中文缩略语知识库建设[A];第三届学生计算语言学研讨会论文集[C];2006年
3 白刚;张铮;丁宗尧;朱毅;;中文文本聚类在互联网搜索的研究与应用[A];第三届全国信息检索与内容安全学术会议论文集[C];2007年
4 王兰成;田梅;侯双;;PLS:一种基于信息自动标引的最小推进分词算法及其实现[A];第十九届全国数据库学术会议论文集(技术报告篇)[C];2002年
5 刘群;张浩;白硕;;中文信息处理开放平台的设计[A];第一届学生计算语言学研讨会论文集[C];2002年
6 支流;朱学锋;段慧明;俞士汶;;中文缩略语还原技术初探[A];全国第八届计算语言学联合学术会议(JSCL-2005)论文集[C];2005年
7 刘开瑛;由丽萍;;汉语框架语义知识库构建工程[A];中文信息处理前沿进展——中国中文信息学会二十五周年学术会议论文集[C];2006年
8 郑家恒;谭红叶;王兴义;;基于模式匹配的中文专有名词识别[A];民族语言文字信息技术研究——第十一届全国民族语言文字信息学术研讨会论文集[C];2007年
9 葛诗利;陈潇潇;;中国EFL学习者自动作文评分探索[A];第三届学生计算语言学研讨会论文集[C];2006年
10 宋柔;;自然语言处理中语言知识的基础性地位[A];民族语言文字信息技术研究——第十一届全国民族语言文字信息学术研讨会论文集[C];2007年
中国重要报纸全文数据库 前10条
1 本报记者 姜靖;张全:给网络装上“电子眼”[N];科技日报;2009年
2 本报记者 祝蕾 见习记者 许凯;李晓戈:努力缩小国内外数字“鸿沟”[N];济南日报;2010年
3 小柯;张全:网络环境“清洁师”[N];广东科技报;2009年
4 金利;东北大学自然语言处理实验室形成特色[N];科技日报;2007年
5 何清 史忠植 王伟;搜索引擎的前沿技术[N];计算机世界;2006年
6 沈建缘;洪小文:时尚科学家[N];经济观察报;2009年
7 记者 刘传书;微软在深圳设实验室[N];科技日报;2006年
8 郑昊;数据挖掘加工海量数据[N];中国计算机报;2007年
9 ;开天辟地第一回[N];计算机世界;2002年
10 刘洁;SAS分析产品链增添“新成员”[N];科技日报;2008年
中国博士学位论文全文数据库 前10条
1 卢延鑫;基于自然语言处理技术的循证医学信息提取研究[D];复旦大学;2011年
2 郑逢斌;关于计算机理解自然查询语言的研究[D];西南交通大学;2004年
3 李良炎;基于词联接的自然语言处理技术及其应用研究[D];重庆大学;2004年
4 代印唐;基于语义网络的知识协作关键技术研究[D];复旦大学;2009年
5 王立欣;翻译标准自动量化方法研究[D];上海外国语大学;2007年
6 李莎莎;面向搜索引擎的自然语言处理关键技术研究[D];国防科学技术大学;2011年
7 周雅倩;最大熵方法及其在自然语言处理中的应用[D];复旦大学;2005年
8 易勇;计算机辅助诗词创作中的风格辨析及联语应对研究[D];重庆大学;2005年
9 谢学敏;基于动态流通语料库(DCC)的流行语释义信息自动提取研究[D];北京语言大学;2006年
10 屈刚;英汉双语短语对齐[D];上海交通大学;2007年
中国硕士学位论文全文数据库 前10条
1 林冬盛;中文分词算法的研究与实现[D];西北大学;2011年
2 韩雪冬;基于CRFs的中文分词算法研究与实现[D];北京邮电大学;2010年
3 王凯;中文分词算法在工程建设材料搜索中的研究与应用[D];大连交通大学;2010年
4 付敏;一个改进的中文分词算法及其在Lucene中的应用[D];华中科技大学;2010年
5 朱世猛;中文分词算法的研究与实现[D];电子科技大学;2011年
6 李畅;智能问答系统在高中物理教学中的应用[D];陕西师范大学;2011年
7 孙博雅;中文分词算法在GIS中的应用研究[D];中南大学;2011年
8 马东;基于Nutch搜索引擎的中文分词算法研究与实现[D];内蒙古农业大学;2011年
9 全昌勤;基于语料库的汉语词义消歧方法研究[D];华中师范大学;2005年
10 张峰;基于自然语言处理的自动文摘系统[D];电子科技大学;2006年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62791813
  • 010-62985026