基于两字词簇的汉语快速自动分词算法
【摘要】:本文提出了一种快速汉语自动分词算法。其主要思想是利用汉语中两字词占75%的统计规律,提出了两字词根和两字词簇的概念。算法把三音节以上的词用两字词簇来压缩处理,也就是把长词的扫描范围限定在词汇量很小的词簇内,从而不仅提高了分词速度,而且彻底解决了传统最大匹配分词算法中最大匹配词长的设定问题。另外,本文还提出了用两字词簇快速检测交叉歧义的算法。本文的分词算法简洁、速度快、易于实现
|
|
|
|
1 |
官礼和,杨刚,李永礼;基于词典的法律案例自动归类系统的开发[J];重庆交通学院学报;2004年01期 |
2 |
于源,衣袭;中文全切分快速分词方法[J];大连铁道学院学报;2005年02期 |
3 |
李艳欣;;搜索引擎中中文分词的研究[J];电脑知识与技术(学术交流);2007年08期 |
4 |
陈桂林,王永成,韩客松,王刚;一种高效的中文电子词表数据结构[J];计算机研究与发展;2000年01期 |
5 |
陈桂林,王永成,韩客松,王刚;一种改进的快速分词算法[J];计算机研究与发展;2000年04期 |
6 |
金瑜,陆启明,高峰;基于上下文相关的最大概率汉语自动分词算法[J];计算机工程;2004年16期 |
7 |
温滔,朱巧明,吕强;一种快速汉语分词算法[J];计算机工程;2004年19期 |
8 |
方逵;罗武;王玉娟;卜伟琼;;中文农业专业分词器设计与实现[J];农业工程;2012年03期 |
9 |
杨建林;全文检索研究[J];情报理论与实践;2000年01期 |
10 |
杨建林,张国梁;基于词链的自动分词方法[J];情报理论与实践;2000年02期 |
|
|
|
|
|
1 |
朱晓丹;刁倩;周富秋;;汉语词语的两字hash算法[A];自然语言理解与机器翻译——全国第六届计算语言学联合学术会议论文集[C];2001年 |
|
|
|
|
|
1 |
赵生慧,陈桂林;基于网格技术的校园网资源共享探讨[J];安徽大学学报(自然科学版);2004年04期 |
2 |
陈明;论科技期刊论文的主题标引[J];安徽农业技术师范学院学报;1999年04期 |
3 |
高迎,王丽君,王锡钢;Simutem:一个中文信息检索系统[J];鞍山师范学院学报;2001年03期 |
4 |
宋智礼,余生晨,刘凡美,薛阳;应用网格技术实现校园网资源共享模型的研究[J];北方工业大学学报;2004年01期 |
5 |
丁丰,董娜,林碧琴,袁保宗;自然语言处理系统中自动分词的研究[J];北方交通大学学报;1999年06期 |
6 |
罗万;彭泽润;;GH高浓缩汉语拼写方案及其原理[J];北华大学学报(社会科学版);2006年06期 |
7 |
穗志方,俞士汶;汉语单句谓语中心词识别知识的获取及应用[J];北京大学学报(自然科学版);1998年Z1期 |
8 |
龚汉明,周长胜;汉语分词技术综述[J];北京机械工业学院学报;2004年03期 |
9 |
李源,何清,史忠植;基于概念语义空间的联想检索[J];北京科技大学学报;2001年06期 |
10 |
曹元大,贺海军,涂哲明;中文Web文档全文检索系统的设计及实现[J];北京理工大学学报;2002年01期 |
|
|
|
|
|
1 |
梁南元;书面汉语的自动分词与一个自动分词系统—CDWS[J];北京航空学院学报;1984年04期 |
2 |
关英春;秦蓓;;汉字自动统计系统CWSS[J];计算机研究与发展;1985年12期 |
3 |
张国煊,王小华,周必水;快速书面汉语自动分词系统及其算法设计[J];计算机研究与发展;1993年01期 |
4 |
刘源,梁南元;汉语处理的基础工程——现代汉语词频统计[J];中文信息学报;1986年01期 |
5 |
关英春
,秦蓓;汉语文字自动统计系统CWSS[J];中文信息学报;1986年01期 |
6 |
梁南元;书面汉语自动分词系统—CDWS[J];中文信息学报;1987年02期 |
7 |
揭春雨
,刘源
,梁南元;论汉语自动分词方法[J];中文信息学报;1989年01期 |
8 |
姚天顺,张桂平,吴映明;基于规则的汉语自动分词系统[J];中文信息学报;1990年01期 |
9 |
梁南元;汉语计算机自动分词知识[J];中文信息学报;1990年02期 |
10 |
何克抗,徐辉,孙波;书面汉语自动分词专家系统设计原理[J];中文信息学报;1991年02期 |
|