书面汉语自动分词系统—CDWS
【摘要】:本文在大量统计的基础上,论证了计算机自动分词是可行的。CDWSThe Mordern Printed Chinese Distinguishing Word System)是作者设计的一个有较高切分精度、可实用的现代书面汉语自动分词系统,它采用了词尾字构词检错技术及若干有效的纠错知识,配置了知识库和临时词典,显著的降低了错误切分率。
【作者单位】:
北京航空学院计算机系 【关键词】:
自动分词 分字段 误切 书面汉语 交集型 分词词典 分词方法 MM方法 分率 临时词 【DOI】:CNKI:SUN:MESS.0.1987-02-006
【正文快照】:
一、序论 在大多数拚音文字中,词是由传统确定的,词就是字,字就是词,一般来说不存在分词问题。例如“铁路”,英语“railway”被认为是一个词,俄语“袱o;e3Ha“几OPora”被认为是两个词,法语“”hemin de feT”被认为是三个词,这井没有什么能户圆其说的道理好讲。汉语是一种没
|
|
|
|
| 1 |
詹剑,徐秉铮;语义信息处理及神经网模型[J];中文信息学报;1992年04期 |
| 2 |
应志伟,柴佩琪,陈其晖;文语转换系统中基于语料的汉语自动分词研究[J];计算机应用;2000年02期 |
| 3 |
张锋,樊孝忠;基于最大熵模型的交集型切分歧义消解[J];北京理工大学学报;2005年07期 |
| 4 |
孙茂松,邹嘉彦;汉语自动分词研究评述[J];当代语言学;2001年01期 |
| 5 |
蔡勇智;基于最大匹配分词算法的中文词语粗分模型[J];福建电脑;2005年09期 |
| 6 |
王锡江;王启祥;陈家骏;;基于邻接知识的汉语自动分词系统[J];计算机研究与发展;1992年11期 |
| 7 |
刘群,张华平,俞鸿魁,程学旗;基于层叠隐马模型的汉语词法分析[J];计算机研究与发展;2004年08期 |
| 8 |
殷峰,何克抗;语句级拼音┐汉字转换系统的设计与实现[J];计算机研究与发展;1997年05期 |
| 9 |
陈其晖,应志伟,柴佩琪;基于歧义二叉树的汉语分词方法[J];计算机辅助工程;1999年04期 |
| 10 |
刘壁松,李春平;一个可扩展的文本分类系统的设计与实现[J];计算机工程与应用;2004年30期 |
|
|
|
|
|
| 1 |
张瑞强,王作英,陆大 ;关于汉语音字转换中语言模型零概率的问题[J];电子学报;1998年08期 |
| 2 |
冯晋,李春平;基于统计学和语义信息的中文文本主题识别技术[J];清华大学学报(自然科学版);2005年S1期 |
| 3 |
王晓龙,王开铸,白小华;自然语言理解中的音字流自动分词[J];中文信息学报;1991年03期 |
| 4 |
詹剑,徐秉铮;语义信息处理及神经网模型[J];中文信息学报;1992年04期 |
| 5 |
牛耘,朱献有;神经网络技术在汉语歧义切分中的应用[J];情报学报;1999年03期 |
| 6 |
赵伟,戴新宇,尹存燕,陈家骏;一种规则与统计相结合的汉语分词方法[J];计算机应用研究;2004年03期 |
| 7 |
林绮屏;基于词形的最佳路径分词算法[J];华南师范大学学报(自然科学版);2002年04期 |
| 8 |
方华,王振华,陆汝占,刘绍明;运用改进的分词方法进行外国译名识别的研究[J];计算机仿真;2005年03期 |
| 9 |
卢忠良,王家云,荣融,朱劲松,孙即祥;一种基于模糊聚类的汉语文本自动分类方法[J];计算机应用与软件;2003年10期 |
| 10 |
冯书晓,徐新,杨春梅;国内中文分词技术研究新进展[J];情报杂志;2002年11期 |
|