收藏本站
《计算机研究与发展》 2000年04期
收藏 | 投稿 | 手机打开
二维码
手机客户端打开本文

一种改进的快速分词算法

陈桂林  王永成  韩客松  王刚  
【摘要】:首先介绍了一种高效的中文电子词表数据结构 ,它支持首字 Hash和标准的二分查找 ,且不限词条长度 ;然后提出了一种改进的快速分词算法 ,在快速查找两字词的基础上 ,利用近邻匹配方法来查找多字词 ,明显提高了分词效率 .理论分析表明 ,该分词算法的时间复杂度为 1.6 6 ,在速度方面 ,优于目前所见的同类算法

手机知网App
【引证文献】
中国期刊全文数据库 前10条
1 蔡勇智;基于最大匹配分词算法的中文词语粗分模型[J];福建电脑;2005年09期
2 文庭孝;汉语自动分词研究进展[J];图书与情报;2005年05期
3 刘晓英;汉语自动分词研究的发展趋势[J];高校图书馆工作;2005年04期
4 林绮屏;基于词形的最佳路径分词算法[J];华南师范大学学报(自然科学版);2002年04期
5 蒋斌;杨超;赵欢;;基于二字词位图表的汉语自动分词词典机制[J];湖南大学学报(自然科学版);2006年01期
6 李振星,徐泽平,唐卫清,唐荣锡;全二分最大匹配快速分词算法[J];计算机工程与应用;2002年11期
7 吴建胜,战学刚,迟呈英;一种基于自动机的分词方法[J];计算机工程与应用;2005年08期
8 温滔,朱巧明,吕强;一种快速汉语分词算法[J];计算机工程;2004年19期
9 张长利,赫枫龄,左万利;一种基于后缀数组的无词典分词方法[J];吉林大学学报(理学版);2004年04期
10 李向阳,张亚非;一种Hash高速分词算法[J];解放军理工大学学报(自然科学版);2004年02期
中国重要会议论文全文数据库 前3条
1 王虎;王潜平;;对整词二分自动分词机制的改进[A];中国计算技术与语言问题研究——第七届中文信息处理国际会议论文集[C];2007年
2 朱晓丹;刁倩;周富秋;;汉语词语的两字hash算法[A];自然语言理解与机器翻译——全国第六届计算语言学联合学术会议论文集[C];2001年
3 杨超;李仁发;蒋斌;;一种高效的汉语自动分词词典机制[A];NCIRCS2004第一届全国信息检索与内容安全学术会议论文集[C];2004年
中国博士学位论文全文数据库 前1条
1 刘少辉;知识发现中粗糙集理论的研究[D];中国科学院研究生院(计算技术研究所);2003年
中国硕士学位论文全文数据库 前10条
1 马国俊;潜在语义索引在中文文本聚类中的应用研究[D];西安建筑科技大学;2004年
2 徐爱华;面向文本分类的中文文本挖掘技术研究及实现[D];武汉理工大学;2004年
3 王志勇;基于统计语言学模型的中文文本信息检索[D];第二军医大学;2004年
4 夏洪斌;基于知识分词算法的病案全文检索系统[D];第二军医大学;2004年
5 王术;面向个性化服务的网页特征描述方法研究[D];重庆大学;2004年
6 汤立浩;基于Netfilter内容过滤系统[D];汕头大学;2004年
7 罗小虎;基于蚁群算法的汉语自动分词的研究与实现[D];苏州大学;2004年
8 于波;中文全文检索技术研究[D];华中师范大学;2003年
9 卢忠良;基于多类的汉语文本自动分类研究[D];中国人民解放军国防科学技术大学;2002年
10 高雷;网络智能过滤系统的设计与实现[D];广东工业大学;2003年
【参考文献】
中国期刊全文数据库 前8条
1 吴胜远;一种汉语分词方法[J];计算机研究与发展;1996年04期
2 陈桂林,王永成,韩客松,王刚;一种高效的中文电子词表数据结构[J];计算机研究与发展;2000年01期
3 揭春雨 ,刘源 ,梁南元;论汉语自动分词方法[J];中文信息学报;1989年01期
4 梁南元;汉语计算机自动分词知识[J];中文信息学报;1990年02期
5 李国臣,刘开瑛,张永奎;汉语自动分词及歧义组合结构的处理[J];中文信息学报;1988年03期
6 徐秉铮,詹剑,贺前华;基于神经网络的分词方法[J];中文信息学报;1993年02期
7 骆正清,陈增武,胡上序;一种改进的MM分词方法的算法设计[J];中文信息学报;1996年03期
8 郭祥昊,钟义信,杨丽;基于两字词簇的汉语快速自动分词算法[J];情报学报;1998年05期
【共引文献】
中国期刊全文数据库 前10条
1 杨宪泽;中文自动分词探讨[J];西南民族学院学报(自然科学版);1994年03期
2 丁丰,董娜,林碧琴,袁保宗;自然语言处理系统中自动分词的研究[J];北方交通大学学报;1999年06期
3 文庭孝;汉语自动分词研究进展[J];图书与情报;2005年05期
4 朱靖波,姚天顺;中文信息自动抽取[J];东北大学学报(自然科学版);1998年01期
5 冯志伟;汉字和汉语的计算机处理[J];当代语言学;2001年01期
6 孙茂松,邹嘉彦;汉语自动分词研究评述[J];当代语言学;2001年01期
7 黄德根,朱和合,王昆仑,杨元生,钟万勰;基于最长次长匹配的汉语自动分词[J];大连理工大学学报;1999年06期
8 黄德根,马玉霞,杨元生;基于互信息的中文姓名识别方法[J];大连理工大学学报;2004年05期
9 王秀坤,李政,简幼良,刘剑;基于Hash方法的机器翻译词典的组织与构造[J];大连理工大学学报;1996年03期
10 于源,衣袭;中文全切分快速分词方法[J];大连铁道学院学报;2005年02期
中国重要会议论文全文数据库 前2条
1 王虎;王潜平;;对整词二分自动分词机制的改进[A];中国计算技术与语言问题研究——第七届中文信息处理国际会议论文集[C];2007年
2 赫琳;;论“X 从小 Y”的词切分——“从小”语义指向计算机识别的再思考[A];中国计算技术与语言问题研究——第七届中文信息处理国际会议论文集[C];2007年
中国博士学位论文全文数据库 前10条
1 肖明;WWW科技信息资源自动标引的理论与实践研究[D];中国科学院文献情报中心;2001年
2 王兰成;基于XMARC信息描述的知识标引与概念检索研究[D];东华大学;2004年
3 刘忠;性质语意理论的提出与自然语言理解及其实现的研究[D];华东师范大学;2004年
4 隋岩;基于“动态流通语料库”的“有效字符串”提取研究[D];北京语言大学;2004年
5 郑逢斌;关于计算机理解自然查询语言的研究[D];西南交通大学;2004年
6 孙越恒;基于统计的NLP技术在中文信息检索中的应用研究[D];天津大学;2005年
7 贺前华;汉语自动分词及机器翻译研究[D];华南理工大学;1993年
8 吴应良;网络计算中的智能信息处理方法研究[D];华南理工大学;2000年
9 刘涛;现代信息检索中的文本分类及图像恢复研究[D];北京邮电大学;2006年
10 冯敏萱;论汉英平行语料的平行处理[D];南京师范大学;2006年
中国硕士学位论文全文数据库 前10条
1 杨彦;基于Hash结构的机械统计分词系统[D];中南大学;2005年
2 唐晓文;基于知识特征的教学资源收集和组织的研究与实现[D];中南大学;2005年
3 何尧;基于半监督学习的中文文档分类技术研究[D];中南大学;2005年
4 曾慧宏;面向网络学习的知识服务平台及检索方法研究[D];中南大学;2005年
5 孟祥超;网络资源搜集系统的设计与实现[D];吉林大学;2005年
6 程越;基于统计的中文姓名识别的研究与实现[D];吉林大学;2005年
7 付曙光;合作伙伴的Web挖掘系统研究[D];辽宁工程技术大学;2005年
8 王彤宇;应用于学生知识拓展的智能WEB检索系统[D];山东大学;2005年
9 刘雪芹;单汉字全文检索技术研究[D];河北工业大学;2005年
10 胡业江;中文姓名自动识别技术研究[D];华侨大学;2005年
【同被引文献】
中国期刊全文数据库 前10条
1 张锋,樊孝忠;基于最大熵模型的交集型切分歧义消解[J];北京理工大学学报;2005年07期
2 尹清波,张汝波,李雪耀,王慧强;基于动态马尔科夫模型的入侵检测技术研究[J];电子学报;2004年11期
3 李响;李庆波;徐怡庄;张广军;吴瑾光;杨丽敏;凌晓锋;周孝思;王健生;;KNN方法在癌症中红外光谱检测中的应用[J];光谱学与光谱分析;2007年03期
4 卢苇;彭雅;;几种常用文本分类算法性能比较与分析[J];湖南大学学报(自然科学版);2007年06期
5 尚文倩;黄厚宽;刘玉玲;林永民;瞿有利;董红斌;;文本分类中基于基尼指数的特征选择算法研究[J];计算机研究与发展;2006年10期
6 段学超;仇原鹰;段宝岩;;基于Metropolis遗传算法的并联机器人结构优化设计[J];机器人;2006年04期
7 苏金树;张博锋;徐昕;;基于机器学习的文本分类技术研究进展[J];软件学报;2006年09期
8 陈华根,吴健生,王家林,陈冰;模拟退火算法机理研究[J];同济大学学报(自然科学版);2004年06期
9 柴登峰,张登荣;前N条最短路径问题的算法及应用[J];浙江大学学报(工学版);2002年05期
10 史彦军,滕弘飞,金博;抄袭论文识别研究与进展[J];大连理工大学学报;2005年01期
中国博士学位论文全文数据库 前10条
1 张燕平;基于商空间的构造性数据挖掘方法及应用[D];安徽大学;2003年
2 程军;基于统计的文本分类技术研究[D];中国科学院研究生院(文献情报中心);2003年
3 孙波;计算机取证方法关键问题研究[D];中国科学院研究生院(软件研究所);2004年
4 刘永丹;文档数据库若干关键技术研究[D];复旦大学;2004年
5 王建会;中文信息处理中若干关键技术的研究[D];复旦大学;2004年
6 薛德军;中文文本自动分类中的关键问题研究[D];清华大学;2004年
7 刘云峰;基于潜在语义分析的中文概念检索研究[D];华中科技大学;2005年
8 杨震;文本分类和聚类中若干问题的研究[D];北京邮电大学;2007年
9 周文;基于概念的若干知识表示模型及相关方法研究[D];上海大学;2007年
10 周顺先;文本信息抽取模型及算法研究[D];湖南大学;2007年
中国硕士学位论文全文数据库 前10条
1 沈斌;基于分词的中文文本相似度计算研究[D];天津财经大学;2006年
2 陈勇;中医药主题搜索网络机器人的研究与实现[D];西南交通大学;2005年
3 于波;中文全文检索技术研究[D];华中师范大学;2003年
4 刘琨;搜索引擎的研究与实现[D];西安电子科技大学;2004年
5 王亮;搜索引擎及其相关性排序研究[D];武汉大学;2004年
6 陈鑫;中文智能搜索引擎[D];四川大学;2004年
7 寿周翔;专业搜索引擎的研究与设计[D];浙江大学;2005年
8 陈洁惠;搜索引擎排序算法的研究[D];河海大学;2007年
9 姜华;基于Lucene面向主题搜索引擎的研究与设计[D];华东师范大学;2007年
10 易高翔;Web文本挖掘研究与实现[D];武汉科技大学;2004年
【二级引证文献】
中国期刊全文数据库 前10条
1 文庭孝;汉语自动分词研究进展[J];图书与情报;2005年05期
2 周蕾;;基于碎片分词的未登录词识别方法[J];常熟理工学院学报;2007年02期
3 王一蕾;吴英杰;;基于数据量的文本分词算法选取的研究[J];福建电脑;2006年09期
4 苏芳仲,林世平;Web文本挖掘中的一种中文分词算法研究及其实现[J];福州大学学报(自然科学版);2004年S1期
5 刘晓英;汉语自动分词研究的发展趋势[J];高校图书馆工作;2005年04期
6 李向阳,张亚非;一种Hash高速分词算法[J];解放军理工大学学报(自然科学版);2004年02期
7 李向阳,张亚非;基于语义标注的信息抽取[J];解放军理工大学学报(自然科学版);2004年04期
8 赫枫龄;左万利;张雪松;;高性能网页索引器JU_Indexer的实现[J];吉林大学学报(理学版);2006年01期
9 翟凤文;赫枫龄;左万利;;基于统计规则的交集型歧义处理方法[J];吉林大学学报(理学版);2006年02期
10 路永刚;赵伟;;一种改进的MM分词方法的研究与实现[J];长春工业大学学报(自然科学版);2006年04期
中国重要会议论文全文数据库 前1条
1 王虎;王潜平;;对整词二分自动分词机制的改进[A];中国计算技术与语言问题研究——第七届中文信息处理国际会议论文集[C];2007年
中国博士学位论文全文数据库 前6条
1 姜韶华;科研项目管理中的文本挖掘方法研究及应用[D];大连理工大学;2006年
2 杨传耀;中文信息检索索引模型及相关技术研究[D];复旦大学;2007年
3 黄魏;植物营养诊断自动应答网络专家系统研究[D];华中农业大学;2007年
4 易高翔;粗糙集在Web挖掘中的应用研究[D];华中科技大学;2006年
5 何琳;古农学本体的半自动构建及检索研究[D];南京农业大学;2007年
6 马晖男;信息检索中浅层语义模型的研究[D];大连理工大学;2007年
中国硕士学位论文全文数据库 前10条
1 杨彦;基于Hash结构的机械统计分词系统[D];中南大学;2005年
2 彭俊;面向阅读的论文主题标引管理系统研究[D];中南大学;2007年
3 潘景剑;具有中文人名识别功能的汉语自动分词算法研究[D];河北工业大学;2006年
4 翟凤文;统计与字典相结合的中文分词[D];吉林大学;2005年
5 李富萍;基于多Agent的信息搜索引擎技术研究与应用[D];中北大学;2005年
6 高雷;网络智能过滤系统的设计与实现[D];广东工业大学;2003年
7 张俊艳;基于SVM有聚类指导的Web中文文本分类器的研究及其实现[D];福州大学;2004年
8 赵海雁;基于数据链路层数据捕获与信息过滤[D];华北工学院;2004年
9 朱珣;中文自动分词系统的研究[D];华中师范大学;2004年
10 汤立浩;基于Netfilter内容过滤系统[D];汕头大学;2004年
【二级参考文献】
中国期刊全文数据库 前10条
1 孙文隽,李建中,常红;基于并行B~+-树的并行Join算法的设计、分析与实现[J];计算机学报;1998年01期
2 梁南元;书面汉语自动分词综述[J];计算机应用与软件;1987年03期
3 王晓龙,王开铸,李仲荣,白小华;最少分词问题及其解法[J];科学通报;1989年13期
4 揭春雨 ,刘源 ,梁南元;论汉语自动分词方法[J];中文信息学报;1989年01期
5 梁南元;汉语计算机自动分词知识[J];中文信息学报;1990年02期
6 何克抗,徐辉,孙波;书面汉语自动分词专家系统设计原理[J];中文信息学报;1991年02期
7 揭春雨,刘源,梁南元;汉语自动分词实用系统CASS的设计和实现[J];中文信息学报;1991年04期
8 骆正清,陈增武,胡上序;一种改进的MM分词方法的算法设计[J];中文信息学报;1996年03期
9 张民,李生,王海峰,赵铁军,王铁志;基于知识评价的快速汉语自动分词系统[J];情报学报;1996年02期
10 苏新宁;汉语词切分标引算法的改进[J];情报学报;1996年06期
【相似文献】
中国期刊全文数据库 前10条
1 韩利凯;;一种快速Web中文分词算法的研究[J];航空计算技术;2007年06期
2 邓少敏;黄明和;;二分查找树插入和删除算法的综合推导[J];江西师范大学学报(自然科学版);1991年04期
3 张红琴;C++高级语言中如何实现查找[J];河南科技;2005年08期
4 成亚萍;傅德胜;;基于位的二分查找算法[J];南京气象学院学报;2005年06期
5 夏晓明,禹宏涛;混合查找算法[J];计算机应用研究;1995年03期
6 王立波;;斐波那契查找算法的改进[J];杭州电子科技大学学报;2011年03期
7 耿新青;陶凤梅;黄宏光;;一种基于近邻匹配的中文分词算法Jlppeccz[J];鞍山师范学院学报;2010年04期
8 张少润;;参数化的二分查找树[J];厦门大学学报(自然科学版);1986年06期
9 周浩;;关键字频度统计器基于MFC的设计与实现[J];信息与电脑(理论版);2011年08期
10 杨春宝;冯霞;冯兴杰;;中文文本分词技术在航空安全报告中的应用[J];中国民航大学学报;2007年S1期
中国重要会议论文全文数据库 前7条
1 朱鉴;张建;李淼;强静;杨攀;;面向民族语言信息处理的汉语分词方法[A];民族语言文字信息技术研究——第十一届全国民族语言文字信息学术研讨会论文集[C];2007年
2 王琛;何加铭;;智能终端文字输入搜索优化研究[A];浙江省电子学会2008年学术年会论文集[C];2008年
3 曾华琳;李堂秋;曹冬林;;机器辅助翻译系统用词典的管理[A];第二届全国学生计算语言学研讨会论文集[C];2004年
4 苏亮;孙斌;;一种基于Lucene的Hash改进中文分词算法的实现[A];2007通信理论与技术新发展——第十二届全国青年通信学术会议论文集(上册)[C];2007年
5 常瑞君;陈红;;主存数据库的一种高速缓存敏感性索引结构——CST树[A];第十九届全国数据库学术会议论文集(技术报告篇)[C];2002年
6 崔凯云;胡国林;;基于HLA的超实时仿真航天器故障诊断研究[A];'2010系统仿真技术及其应用学术会议论文集[C];2010年
7 邱林;李强;;视频行为分析在建筑节能应用中的探讨[A];中国自动化学会控制理论专业委员会C卷[C];2011年
中国博士学位论文全文数据库 前1条
1 李科;移动机器人全景视觉归航技术研究[D];哈尔滨工程大学;2011年
中国硕士学位论文全文数据库 前10条
1 贺艳艳;基于词表结构的中文分词算法研究[D];中国地质大学(北京);2007年
2 艾山·吾买尔;多语种—多媒体电子词典资源平台和大型英汉维电子词典的研究和实现[D];新疆大学;2007年
3 顾德军;基于视频图像处理的人数自动统计技术研究[D];南京航空航天大学;2010年
4 苏朋程;基于Multi-Agent Windows内核级网络数据流的研究与应用[D];贵州大学;2007年
5 李博;几何区域查询算法的研究[D];哈尔滨理工大学;2008年
6 王全礼;基于Hash机制的分词词典的设计与实现[D];电子科技大学;2008年
7 冯亚;数据挖掘中决策树分类算法研究与应用[D];西北大学;2007年
8 苏亮;基于多级Hash分词的全文搜索引擎的研究[D];北京邮电大学;2008年
9 张玲;基于Windows CE.Net的英维汉电子词典的研究与实现[D];新疆大学;2008年
10 李丰军;基于WinCE的维吾尔语智能输入法的研究与实现[D];新疆大学;2008年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62791813
  • 010-62985026