收藏本站
《中文信息学报》 1989年01期
收藏 | 投稿 | 手机打开
二维码
手机客户端打开本文

论汉语自动分词方法

揭春雨  刘源  梁南元  
【摘要】:文章简单考查了目前中文信息处理领域中已有的几种主要的汉语自动分词方法,提出自动分词方法的结构模型ASM(d,a,m),对各种分词方法的时间复杂度进行了计算,对于时间复杂度对分词速度的影响,以及分词方法对分词精度的影响也进行了分析;同时指出并论证在自动分词中设立“切分标志”是没有意义的。

手机知网App
【引证文献】
中国期刊全文数据库 前10条
1 李国和;刘光胜;吴卫江;孙红军;唐先明;韩宝东;;基于最大匹配和歧义检测的中文分词粗分方法[J];北京信息科技大学学报(自然科学版);2010年S2期
2 赵春红;高希龙;王柠;赵威;刘国华;;一种应用分治策略的中文分词方法[J];燕山大学学报;2009年05期
3 孙茂松,邹嘉彦;汉语自动分词研究评述[J];当代语言学;2001年01期
4 黄德根,朱和合,王昆仑,杨元生,钟万勰;基于最长次长匹配的汉语自动分词[J];大连理工大学学报;1999年06期
5 曲卫华;王群;;搜索引擎原理介绍与分析[J];电脑知识与技术;2006年35期
6 李艳欣;;搜索引擎中中文分词的研究[J];电脑知识与技术(学术交流);2007年08期
7 郭屹;;对中文自动分词机制的研究和改进[J];电脑知识与技术;2008年07期
8 许华;刘勇;;中文分词词典机制的研究[J];福建电脑;2010年03期
9 周健欣;张启蕊;;医药文献中文分词研究[J];电脑知识与技术;2012年17期
10 崔虹燕;;一种改进的基于词频统计的中文分词算法研究[J];信息技术;2008年04期
中国重要会议论文全文数据库 前2条
1 ;An Improved Dictionary-based Chinese Word Segmentation Approach in Lucene[A];Proceedings of 2010 International Conference on Services Science, Management and Engineering(Volume 1)[C];2010年
2 郭晶;;一个基于汉语分词的搜索引擎原型系统[A];OA’2001办公自动化国际学术研讨会论文集[C];2001年
中国博士学位论文全文数据库 前9条
1 隋岩;基于“动态流通语料库”的“有效字符串”提取研究[D];北京语言大学;2004年
2 贺前华;汉语自动分词及机器翻译研究[D];华南理工大学;1993年
3 宗成庆;音字转换与句子规范化处理研究[D];中国科学院研究生院(计算技术研究所);1998年
4 张大军;汉语文语转换系统HJ-TTS关键技术的研究与实现[D];中国科学院研究生院(计算技术研究所);2000年
5 张磊;个性化信息分发及概念检索的研究[D];中国科学院研究生院(计算技术研究所);2002年
6 姜韶华;科研项目管理中的文本挖掘方法研究及应用[D];大连理工大学;2006年
7 陈博;WEB文本情感分类中关键问题的研究[D];北京邮电大学;2008年
8 李华;面向知识服务的传统农具数字博物馆设计与构建[D];南京农业大学;2008年
9 马建斌;中文Web信息作者同一认定技术研究[D];河北农业大学;2010年
中国硕士学位论文全文数据库 前10条
1 李金华;基于SVM的多类文本分类研究[D];山东科技大学;2010年
2 李丹;基于规则与统计的汉语自动分词研究[D];长春工业大学;2010年
3 蔡蕊;一种新的搜索引擎分词词典的研究[D];山东大学;2010年
4 何燕;任意类型的未登录词的识别研究[D];北京语言文化大学;2000年
5 李朝阳;经济文献数据库计算机标引研究[D];南京农业大学;2000年
6 马东坡;Internet中文智能搜索引擎汉语自动分词系统设计[D];广西师范大学;2002年
7 许林杰;中文文本分词研究[D];山东师范大学;2003年
8 李海林;自然语言理解及其在机务信息规范化中的应用[D];南京航空航天大学;2004年
9 章兰;一种基于VSM模型的动态文本分类器的设计[D];苏州大学;2004年
10 王志勇;基于统计语言学模型的中文文本信息检索[D];第二军医大学;2004年
【参考文献】
中国期刊全文数据库 前4条
1 梁南元;书面汉语的自动分词与一个自动分词系统—CDWS[J];北京航空学院学报;1984年04期
2 梁南元;书面汉语自动分词综述[J];计算机应用与软件;1987年03期
3 刘源,梁南元;汉语处理的基础工程——现代汉语词频统计[J];中文信息学报;1986年01期
4 关英春 ,秦蓓;汉语文字自动统计系统CWSS[J];中文信息学报;1986年01期
【共引文献】
中国期刊全文数据库 前10条
1 梁南元;汉语自动分词知识[J];北京航空学院学报;1988年04期
2 成华,尹宝林;一个拼音汉字自动转换系统的设计与实现[J];北京航空航天大学学报;1996年04期
3 文庭孝;汉语自动分词研究进展[J];图书与情报;2005年05期
4 孙茂松,邹嘉彦;汉语自动分词研究评述[J];当代语言学;2001年01期
5 刘晓英;汉语自动分词研究的发展趋势[J];高校图书馆工作;2005年04期
6 赵福君,黄厚宽,俞经善;基于期望的汉语分词模型的设计[J];哈尔滨船舶工程学院学报;1990年02期
7 吴岩,李秀坤,王开铸;文章意义段划分的数学模型[J];哈尔滨工业大学学报;1998年06期
8 吴胜远;一种汉语分词方法[J];计算机研究与发展;1996年04期
9 马晓娜,杨承磊;基于面向对象的受限自然语言查询系统的设计与实现[J];计算机工程与应用;2005年10期
10 罗为;书面汉语自动分词方法的研究[J];计算机工程;1989年06期
中国重要会议论文全文数据库 前3条
1 汪华峰;陈峪;;汉语自然语言理解中词切分中新词问题初探[A];第一届全国语言识别学术报告与展示会论文集[C];1990年
2 刘丽艳;盛立东;;一个特定人手写汉字识别系统的实现[A];第八届全国汉字识别学术会议论文集[C];2002年
3 陈芯莹;李雯雯;王燕;王璐;阚明刚;;汉语的计量特征在语言风格对比及作家判定中的应用——以韩寒《三重门》与郭敬明《梦里花落知多少》为例[A];第五届全国青年计算语言学研讨会论文集[C];2010年
中国博士学位论文全文数据库 前7条
1 肖明;WWW科技信息资源自动标引的理论与实践研究[D];中国科学院文献情报中心;2001年
2 刘涛;现代信息检索中的文本分类及图像恢复研究[D];北京邮电大学;2006年
3 冯敏萱;论汉英平行语料的平行处理[D];南京师范大学;2006年
4 姜韶华;科研项目管理中的文本挖掘方法研究及应用[D];大连理工大学;2006年
5 姜维;统计中文词法分析及其强化学习机制的研究[D];哈尔滨工业大学;2007年
6 李华;面向知识服务的传统农具数字博物馆设计与构建[D];南京农业大学;2008年
7 王小芳;文本主题域划分与无监督特征提取[D];吉林大学;2009年
中国硕士学位论文全文数据库 前10条
1 刘婧一;元代笔记分词理论与实践[D];广西师范学院;2010年
2 刘伟丽;基于粒子群算法和支持向量机的中文文本分类研究[D];河南工业大学;2010年
3 何燕;任意类型的未登录词的识别研究[D];北京语言文化大学;2000年
4 鲍胜利;基于多算法集成和神经网络的汉字识别系统的研究[D];四川大学;2002年
5 赵艳芳;面向Internet的个性化信息服务的研究[D];云南师范大学;2005年
6 段立;语境计算在词语歧义消解中的应用[D];华东师范大学;2006年
7 赖擎;问答式系统汉语语言理解技术的研究[D];重庆大学;2005年
8 丰博;领域汉语理解中的智能分词和聚类及其在机械产品设计中的应用[D];西安电子科技大学;2006年
9 沈斌;基于分词的中文文本相似度计算研究[D];天津财经大学;2006年
10 曹帷;教学系统中的语音技术[D];天津师范大学;2006年
【同被引文献】
中国期刊全文数据库 前10条
1 王峻;;一种基于属性相关性度量的朴素贝叶斯分类模型[J];安庆师范学院学报(自然科学版);2007年02期
2 张杰,战学刚,冯金平,陈文亮;中文文本分类器的评价[J];鞍山科技大学学报;2005年Z1期
3 刘洋;关注暗潮涌动的短信“泛滥”[J];电信建设;2003年03期
4 张德鑫;“水至清则无鱼”——我的新生词语规范观[J];北京大学学报(哲学社会科学版);2000年05期
5 苏培成;面向21世纪的中国语文现代化[J];北京大学学报(哲学社会科学版);2001年01期
6 刘晓志;黄厚宽;尚文倩;;带专业词库的特征选择[J];北京交通大学学报;2006年02期
7 曹德和;;中文分词连写的问题与对策[J];北华大学学报(社会科学版);2006年01期
8 王卫兵;;中文分词连写可行性考察[J];北华大学学报(社会科学版);2006年01期
9 吴文超;;中文需要分词连写[J];北华大学学报(社会科学版);2007年05期
10 邓志鸿,唐世渭,张铭,杨冬青,陈捷;Ontology研究综述[J];北京大学学报(自然科学版);2002年05期
中国重要会议论文全文数据库 前3条
1 周强;詹卫东;任海波;;构建大规模的汉语语块库[A];自然语言理解与机器翻译——全国第六届计算语言学联合学术会议论文集[C];2001年
2 郑家恒;杜永萍;宋礼鹏;;农业病虫害词汇获取方法初探[A];语言计算与基于内容的文本处理——全国第七届计算语言学联合学术会议论文集[C];2003年
3 齐振宇;赵军;杨帆;;一种开放式中文命名实体识别的新方法[A];第五届全国信息检索学术会议论文集[C];2009年
中国博士学位论文全文数据库 前10条
1 肖明;WWW科技信息资源自动标引的理论与实践研究[D];中国科学院文献情报中心;2001年
2 王广昌;软件产品线关键方法与技术研究[D];浙江大学;2001年
3 程军;基于统计的文本分类技术研究[D];中国科学院研究生院(文献情报中心);2003年
4 陈定权;自动主题搜索的应用研究[D];中国科学院研究生院(文献情报中心);2003年
5 陈治平;智能搜索引擎理论与应用研究[D];湖南大学;2003年
6 张晓刚;面向软件过程改进的知识管理技术研究[D];中国科学院研究生院(软件研究所);2004年
7 宋枫溪;自动文本分类若干基本问题研究[D];南京理工大学;2004年
8 周雪忠;文本挖掘在中医药中的若干应用研究[D];浙江大学;2004年
9 田林;大遗址遗迹保护问题研究[D];天津大学;2004年
10 徐建锁;知识管理和文本挖掘的若干问题研究[D];天津大学;2004年
中国硕士学位论文全文数据库 前10条
1 何燕;任意类型的未登录词的识别研究[D];北京语言文化大学;2000年
2 易靖;基于信息粒度原理的文本分类方法的研究[D];北京工业大学;2001年
3 游章强;膜翅目“广腰亚目”分属鉴定专家系统[D];中南林学院;2002年
4 罗智勇;现代汉语通用分词系统的技术与实现[D];北京工业大学;2002年
5 任春艳;HSK作文评分客观化探讨[D];北京语言文化大学;2001年
6 廉竹钧;汉语组合型切分歧义字段消歧方法研究[D];北京语言文化大学;2002年
7 辛明海;个性化信息服务中的本体论自动分类和多Agent技术[D];华侨大学;2002年
8 孙丽华;中文文本自动分类的研究[D];哈尔滨工程大学;2002年
9 张海燕;基于分词的中文文本自动分类研究与实现[D];湖南大学;2002年
10 罗强;基于粗糙集理论的知识发现在web文本挖掘上的应用研究[D];广西大学;2003年
【二级引证文献】
中国期刊全文数据库 前10条
1 胡锡衡;;垃圾邮件过滤系统模型的研究与设计[J];鞍山师范学院学报;2009年02期
2 耿新青;陶凤梅;黄宏光;;一种基于近邻匹配的中文分词算法Jlppeccz[J];鞍山师范学院学报;2010年04期
3 唐振民,靳从,杨静宇;档案文献主题词微机自动标引系统[J];兵工自动化;1993年02期
4 王玉美,阮晓钢;基于人的语言认知行为的汉语文法分析专家系统[J];北京工业大学学报;2003年01期
5 马志强;周长胜;丁维;杨娜;;校园网搜索引擎的研究与实现[J];北京机械工业学院学报;2007年01期
6 李国和;刘光胜;吴卫江;孙红军;唐先明;韩宝东;;基于最大匹配和歧义检测的中文分词粗分方法[J];北京信息科技大学学报(自然科学版);2010年S2期
7 文庭孝;汉语自动分词研究进展[J];图书与情报;2005年05期
8 杨树林;基于Web的开放式答疑系统的设计与实现[J];北京印刷学院学报;2005年01期
9 冯哲;孙吉贵;张长胜;王岩;;汉语语音合成的研究进展[J];吉林大学学报(信息科学版);2007年02期
10 葛宇;梁静;陈晓敏;;搜索引擎系统中热点问题的探讨[J];成都电子机械高等专科学校学报;2009年04期
中国重要会议论文全文数据库 前10条
1 ;Foreign Person Name Recognition in Chinese Texts[A];Proceedings of the second Asia-Pacific International Conference on Computational Methods in Engineering(ICOME2006)[C];2006年
2 王慧慧;杨国纬;;基于事例的问答系统研究[A];贵州制约逻辑学会2005年学术年会暨首届全国性逻辑系统专题研讨会论文集[C];2005年
3 曹红;袁津生;;多领域主题搜索引擎研究[A];第一届全国Web信息系统及其应用会议(WISA2004)论文集[C];2004年
4 刘海燕;何静;王子强;;一个安全Web代理的设计与实现[A];第一届全国Web信息系统及其应用会议(WISA2004)论文集[C];2004年
5 陈晓;;中文文本自动分词研究述要[A];第四届全国语言文字应用学术研讨会论文集[C];2005年
6 刮俊杰;吴树国;伊胜伟;;基于词效应的中文术语提取方法[A];第三届中国智能计算大会论文集[C];2009年
7 贺前华;徐秉铮;;神经网络在汉语自动分词中的应用[A];第二届全国人机语音通讯学术会议论文集[C];1992年
8 刘华;张普;;面向词典编纂的词汇聚类研究[A];2004年辞书与数字化研讨会论文集[C];2004年
9 苏亮;孙斌;;一种基于Lucene的Hash改进中文分词算法的实现[A];2007通信理论与技术新发展——第十二届全国青年通信学术会议论文集(上册)[C];2007年
10 ;Research on the Model of Integrating Chinese Word Segmentation with Part-of-speech Tagging[A];Proceedings of 2007 International Symposium on Distributed Computing and Applications to Business, Engineering and Science(Volume Ⅱ)[C];2007年
中国博士学位论文全文数据库 前10条
1 张智雄;Internet科技信息资源门户网站(STIP)系统的实践研究[D];中国科学院文献情报中心;2000年
2 王强军;基于动态流通语料库(DCC)的信息技术领域新术语自动提取研究[D];北京语言文化大学;2003年
3 程军;基于统计的文本分类技术研究[D];中国科学院研究生院(文献情报中心);2003年
4 张蕾;概念结构及其应用[D];西北工业大学;2001年
5 朱征宇;Web资源组织与服务性能研究[D];重庆大学;2003年
6 王兰成;基于XMARC信息描述的知识标引与概念检索研究[D];东华大学;2004年
7 李章维;基于多Agent的数据广播信息平台研究及在远程教育中的应用[D];浙江大学;2004年
8 隋岩;基于“动态流通语料库”的“有效字符串”提取研究[D];北京语言大学;2004年
9 李良炎;基于词联接的自然语言处理技术及其应用研究[D];重庆大学;2004年
10 杨建国;基于动态流通语料库(DCC)的汉语熟语单位研究[D];北京语言大学;2005年
中国硕士学位论文全文数据库 前10条
1 徐财应;基于Lucene的搜索引擎技术的研究与改进[D];长春理工大学;2010年
2 张燕丽;基于Winnow算法和CAPTCHA的垃圾短信过滤研究[D];郑州大学;2010年
3 刘洋;基于本体的医保审计知识库构建研究[D];哈尔滨工程大学;2010年
4 刘靖媛;个性搜索引擎中用户兴趣模型研究[D];哈尔滨工程大学;2010年
5 孔胜;文本资源的知识抽取研究[D];大连理工大学;2010年
6 黄辉;基于LSI和SVC的网页文本分类算法研究[D];长沙理工大学;2010年
7 刘伟丽;基于粒子群算法和支持向量机的中文文本分类研究[D];河南工业大学;2010年
8 涂传唐;基于行为识别的反垃圾邮件技术的探讨[D];华东师范大学;2010年
9 杨鼎;基于朴素贝叶斯的中文文本情感倾向分类研究[D];湖南工业大学;2010年
10 郭瞳康;基于词典的中文分词技术研究[D];哈尔滨理工大学;2010年
【相似文献】
中国期刊全文数据库 前10条
1 刘晓娟;;基于Lucene的中文兴趣点名称的切分与匹配研究[J];电脑知识与技术;2011年21期
2 李俊华;;基于Web文本挖掘的高校教师个人主页系统研究与开发[J];大理学院学报;2011年04期
3 史晓东;卢亚军;;央金藏文分词系统[J];中文信息学报;2011年04期
4 ;[J];;年期
5 ;[J];;年期
6 ;[J];;年期
7 ;[J];;年期
8 ;[J];;年期
9 ;[J];;年期
10 ;[J];;年期
中国重要会议论文全文数据库 前10条
1 徐艳华;;面向自动分词的三音节新词语构词法研究[A];中国计算语言学研究前沿进展(2009-2011)[C];2011年
2 李小明;王亚莉;易立夫;杨静;孙金城;;自动分词中的单字虚词处理[A];新世纪的现代语音学——第五届全国现代语音学学术会议论文集[C];2001年
3 黄昌宁;高剑峰;李沐;;对自动分词的反思[A];语言计算与基于内容的文本处理——全国第七届计算语言学联合学术会议论文集[C];2003年
4 陈传治;张天;左伯莉;李善茂;蒋剑影;李伟;张金芳;;QCM法检测DMMP[A];第六届全国磷化学化工学术讨论会论文摘要集[C];2003年
5 孙承杰;黄昌宁;关毅;;基于标注语料库的组合歧义检测与消解[A];第三届学生计算语言学研讨会论文集[C];2006年
6 高璐;陈琪;李永宏;于洪志;;藏语语音合成中本文分析的若干问题研究[A];第九届中国语音学学术会议论文集[C];2010年
7 黄昌宁;林娟;孙承杰;;何谓金本位[A];全国第八届计算语言学联合学术会议(JSCL-2005)论文集[C];2005年
8 郑泽之;;中文自动分词的一些问题[A];内容计算的研究与应用前沿——第九届全国计算语言学学术会议论文集[C];2007年
9 杨尔弘;方莹;乔羽;;汉语自动分词和词性标注评测[A];第二届全国学生计算语言学研讨会论文集[C];2004年
10 王文达;朱彦鹏;王秀丽;方有珍;;m法求桩身内力和变形的差分解[A];第十届全国结构工程学术会议论文集第Ⅱ卷[C];2001年
中国重要报纸全文数据库 前10条
1 见习记者 吴雨珊;世界银行中国试验10级掌控 “4M法”解构成商行贷款风险[N];21世纪经济报道;2003年
2 ;用DSM法处理电炉粉尘[N];中国冶金报;2002年
3 王萍;Web文本的知识化管理[N];计算机世界;2006年
4 教育部语信司;语言资源监测与服务论坛举行[N];语言文字周报;2010年
5 田梦;软件篇软件只是工具[N];计算机世界;2007年
6 实习生 康晨;网络没有唯一:国内中文搜索引擎之比较[N];中国消费者报;2005年
7 ;管辖范围之争[N];期货日报;2003年
8 马燕  张在萱;北京律师走向新舞台[N];北京日报;2002年
9 教育部语信司;国家语言资源监测与研究中心召开2007数据发布专题研讨会[N];语言文字周报;2008年
10 夏廷;应对欧盟特保机制要讲策略[N];国际商报;2003年
中国博士学位论文全文数据库 前5条
1 黄魏;植物营养诊断自动应答网络专家系统研究[D];华中农业大学;2007年
2 冯敏萱;论汉英平行语料的平行处理[D];南京师范大学;2006年
3 郭宏智;江苏检察院办案楼承重地连墙支护关键技术研究[D];中国地质大学(北京);2008年
4 赵明华;倾斜荷载下基桩的受力研究[D];湖南大学;2001年
5 张博;多视点商品本体学习研究[D];武汉理工大学;2010年
中国硕士学位论文全文数据库 前10条
1 普布旦增;藏文自动分词技术方法研究[D];西藏大学;2010年
2 朱珣;中文自动分词系统的研究[D];华中师范大学;2004年
3 蔡蕊;一种新的搜索引擎分词词典的研究[D];山东大学;2010年
4 武红;分词词典的构建[D];内蒙古师范大学;2010年
5 许荣荣;中文文本自动分词技术与算法研究[D];郑州大学;2010年
6 段倩倩;面向信息处理的带典型前缀派生词的识别分析[D];上海师范大学;2010年
7 史迎馨;建筑图中有限自然语言的分析与理解的研究[D];长春工业大学;2010年
8 陈正思;基于TRS信息检索技术的文献资源统一检索平台的构建[D];中南大学;2011年
9 魏莎莎;一种中文未登录词识别及词典设计新方法[D];西南大学;2011年
10 索南扎西;藏语语音合成关键技术研究[D];西藏大学;2011年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62791813
  • 010-62985026