期刊库|学位论文库|会议论文库|免费注册|新手指南|知识超市|充值中心|知网招商|学习园地|帮助中心|English
全文文献:
《中文信息学报》 1987年02期
加入收藏 获取最新

书面汉语自动分词系统—CDWS

梁南元  
【摘要】:本文在大量统计的基础上,论证了计算机自动分词是可行的。CDWSThe Mordern Printed Chinese Distinguishing Word System)是作者设计的一个有较高切分精度、可实用的现代书面汉语自动分词系统,它采用了词尾字构词检错技术及若干有效的纠错知识,配置了知识库和临时词典,显著的降低了错误切分率。
【作者单位】北京航空学院计算机系
【关键词】自动分词 分字段 误切 书面汉语 交集型 分词词典 分词方法 MM方法 分率 临时词
【DOI】:CNKI:SUN:MESS.0.1987-02-006
【正文快照】:
一、序论 在大多数拚音文字中,词是由传统确定的,词就是字,字就是词,一般来说不存在分词问题。例如“铁路”,英语“railway”被认为是一个词,俄语“袱o;e3Ha“几OPora”被认为是两个词,法语“”hemin de feT”被认为是三个词,这井没有什么能户圆其说的道理好讲。汉语是一种没
推荐 CAJ下载 PDF下载
不支持迅雷等加速下载工具,请取消加速工具后下载
CAJViewer7.0阅读器支持所有CNKI文件格式,AdobeReader仅支持PDF格式

【引证文献】
中国期刊全文数据库 前10条
1 詹剑,徐秉铮;语义信息处理及神经网模型[J];中文信息学报;1992年04期
2 应志伟,柴佩琪,陈其晖;文语转换系统中基于语料的汉语自动分词研究[J];计算机应用;2000年02期
3 张锋,樊孝忠;基于最大熵模型的交集型切分歧义消解[J];北京理工大学学报;2005年07期
4 孙茂松,邹嘉彦;汉语自动分词研究评述[J];当代语言学;2001年01期
5 蔡勇智;基于最大匹配分词算法的中文词语粗分模型[J];福建电脑;2005年09期
6 王锡江;王启祥;陈家骏;;基于邻接知识的汉语自动分词系统[J];计算机研究与发展;1992年11期
7 刘群,张华平,俞鸿魁,程学旗;基于层叠隐马模型的汉语词法分析[J];计算机研究与发展;2004年08期
8 殷峰,何克抗;语句级拼音┐汉字转换系统的设计与实现[J];计算机研究与发展;1997年05期
9 陈其晖,应志伟,柴佩琪;基于歧义二叉树的汉语分词方法[J];计算机辅助工程;1999年04期
10 刘壁松,李春平;一个可扩展的文本分类系统的设计与实现[J];计算机工程与应用;2004年30期
中国重要会议论文全文数据库 前7条
1 张霄军;董宇;陈小荷;;基于语料考察的“组合型歧义”与“切分变异”辨析[A];内容计算的研究与应用前沿——第九届全国计算语言学学术会议论文集[C];2007年
2 董强;郝长伶;董振东;;基于《知网》的中文语块抽取器[A];语言计算与基于内容的文本处理——全国第七届计算语言学联合学术会议论文集[C];2003年
3 孙茂松;;汉语自动分词研究的若干最新进展——清华大学相关工作简介[A];辉煌二十年——中国中文信息学会二十周年学术会议论文集[C];2001年
4 Chunyu Kit;;An Example-based Study on Chinese Word Segmentation Using Critical Fragments[A];Proceedings of the Conference First International Joint Conference on Natural Language Processing[C];2004年
5 李斌;陈小荷;方芳;徐艳华;;高频最大交集型歧义字段问题研究[A];全国第八届计算语言学联合学术会议(JSCL-2005)论文集[C];2005年
6 孙承杰;黄昌宁;关毅;;基于标注语料库的组合歧义检测与消解[A];第三届学生计算语言学研讨会论文集[C];2006年
7 Luning Ji, Qin Lu, Wenjie Li, YiRong Chen The Department of Computing, The Hong Kong Polytechnic University, Hong Kong, China;A Comparative Study of the Effect of Word Segmentation On Chinese Terminology Extraction[A];第20届亚太地区语言、信息和计算国际会议论文集[C];2006年
中国博士学位论文全文数据库 前7条
1 常娥;古籍智能处理技术研究[D];南京农业大学;2007年
2 黄魏;植物营养诊断自动应答网络专家系统研究[D];华中农业大学;2007年
3 贺前华;汉语自动分词及机器翻译研究[D];华南理工大学;1993年
4 冯敏萱;论汉英平行语料的平行处理[D];南京师范大学;2006年
5 张亮;面向开放域的中文问答系统问句处理相关技术研究[D];南京理工大学;2006年
6 张华平;语言浅层分析与句子级新信息检测研究[D];中国科学院研究生院(计算技术研究所);2005年
7 郭永辉;英汉机器翻译系统关键技术研究[D];解放军信息工程大学;2006年
中国硕士学位论文全文数据库 前10条
1 魏进;中文分词技术在公安信息系统中的应用研究[D];解放军信息工程大学;2007年
2 卢毓亮;面向Web站点的搜索引擎研究与实现[D];西安理工大学;2007年
3 武玉洲;汉语文本人名识别改进方法研究[D];北京语言大学;2007年
4 施超;信息智能处理技术在MIS系统中的研究与应用[D];北京邮电大学;2007年
5 何燕;任意类型的未登录词的识别研究[D];北京语言文化大学;2000年
6 娄(王廷);现代汉语分词系统通用性设计及切分歧义处理[D];北京工业大学;2000年
7 黄艳;面向数字化产品的自然语言查询技术的研究与开发[D];浙江大学;2002年
8 缪晓阳;WebCM:一种基于搜索引擎的网络内容监控系统的研究[D];浙江大学;2002年
9 廉竹钧;汉语组合型切分歧义字段消歧方法研究[D];北京语言文化大学;2002年
10 马东坡;Internet中文智能搜索引擎汉语自动分词系统设计[D];广西师范大学;2002年
【同被引文献】
中国期刊全文数据库 前10条
1 林鸿飞,战学刚,姚天顺;中文文本挖掘的特征导航机制[J];东北大学学报(自然科学版);2000年03期
2 刘禹孜,何中市;一种基于SVM和规则消除组合型歧义的算法[J];重庆大学学报(自然科学版);2005年10期
3 翟凤文;赫枫龄;左万利;;基于统计规则的交集型歧义处理方法[J];吉林大学学报(理学版);2006年02期
4 陶跃华,孙茂松;基于潜语义标引的自然语言检索[J];现代图书情报技术;2001年05期
5 张培颖;李村合;;基于知识库的交集型歧义字段切分系统[J];计算机系统应用;2006年08期
6 李根蟠,王小嘉;中国农业历史研究的回顾与展望[J];古今农业;2003年03期
7 胡俊峰,俞士汶;唐宋诗之计算机辅助深层研究[J];北京大学学报(自然科学版);2001年05期
8 史睿;论中国古籍的数字化与人文学术研究[J];国家图书馆学刊;1999年02期
9 陈力;中文古籍数字化方法之检讨[J];国家图书馆学刊;2005年03期
10 薛山顺;网络时代的文献检索与后控制词表[J];图书与情报;2000年03期
中国重要会议论文全文数据库 前10条
1 宋柔;邹嘉彦;;汉语专名的初步研究[A];辉煌二十年——中国中文信息学会二十周年学术会议论文集[C];2001年
2 孙茂松;;汉语自动分词研究的若干最新进展——清华大学相关工作简介[A];辉煌二十年——中国中文信息学会二十周年学术会议论文集[C];2001年
3 高山;张艳;徐波;宗成庆;韩兆兵;;基于三元统计模型的汉语分词及标注一体化研究[A];自然语言理解与机器翻译——全国第六届计算语言学联合学术会议论文集[C];2001年
4 柏晓静;常宝宝;詹卫东;吴拥华;;构建大规模的汉英双语平行语料库[A];机器翻译研究进展——2002年全国机器翻译研讨会论文集[C];2002年
5 王树西;刘群;白硕;王斌;程学旗;姜吉发;;基于动态知识库的问答系统研究[A];语言计算与基于内容的文本处理——全国第七届计算语言学联合学术会议论文集[C];2003年
6 郭永辉;吴保民;马芳;王炳锡;;基于粗糙集的自然语言基本名词短语识别[A];第一届建立和谐人机环境联合学术会议(HHME2005)论文集[C];2005年
7 朱莉;孟遥;赵铁军;;典型参数平滑算法在词性标注中的性能评价[A];语言计算与基于内容的文本处理——全国第七届计算语言学联合学术会议论文集[C];2003年
8 周强;詹卫东;任海波;;构建大规模的汉语语块库[A];自然语言理解与机器翻译——全国第六届计算语言学联合学术会议论文集[C];2001年
9 侯敏;陈琼璜;初田天;李湛;王瑜;叶立;;汉语自动分词中的上下文相关歧义字段(CSAS)研究[A];全国第八届计算语言学联合学术会议(JSCL-2005)论文集[C];2005年
10 曲维光;董宇;陈钟;陈小荷;;基于语境计算模型的词义消歧[A];全国第八届计算语言学联合学术会议(JSCL-2005)论文集[C];2005年
中国博士学位论文全文数据库 前2条
1 曹玲;农业古籍数字化整理研究[D];南京农业大学;2006年
2 温继文;基于知识的鱼病诊断推理系统研究[D];中国农业大学;2003年
中国硕士学位论文全文数据库 前10条
1 王源媛;中文未登录名词短语的识别方法研究[D];重庆大学;2004年
2 杨超;基于最大匹配的书面汉语自动分词研究[D];湖南大学;2004年
3 温滔;自适应歧义切分的汉语分词系统的设计与实现[D];苏州大学;2005年
4 代建英;汉语自动分词系统的研究与实现[D];重庆大学;2005年
5 刘禹孜;汉语自动分词中排除歧义字段算法的研究[D];重庆大学;2005年
6 杨彦;基于Hash结构的机械统计分词系统[D];中南大学;2005年
7 贺胜;面向现代汉语文本处理的全文检索、自动分词通用系统[D];南京师范大学;2006年
8 许顺;中文分词规范可计算化的研究与实现[D];苏州大学;2006年
9 常晓燕;基于Java的新闻搜索引擎的设计与实现[D];西南交通大学;2004年
10 朱毅华;智能搜索引擎中的同义词识别算法研究[D];南京农业大学;2001年
【二级引证文献】
中国期刊全文数据库 前10条
1 张瑞强,王作英,陆大 ;关于汉语音字转换中语言模型零概率的问题[J];电子学报;1998年08期
2 冯晋,李春平;基于统计学和语义信息的中文文本主题识别技术[J];清华大学学报(自然科学版);2005年S1期
3 王晓龙,王开铸,白小华;自然语言理解中的音字流自动分词[J];中文信息学报;1991年03期
4 詹剑,徐秉铮;语义信息处理及神经网模型[J];中文信息学报;1992年04期
5 牛耘,朱献有;神经网络技术在汉语歧义切分中的应用[J];情报学报;1999年03期
6 赵伟,戴新宇,尹存燕,陈家骏;一种规则与统计相结合的汉语分词方法[J];计算机应用研究;2004年03期
7 林绮屏;基于词形的最佳路径分词算法[J];华南师范大学学报(自然科学版);2002年04期
8 方华,王振华,陆汝占,刘绍明;运用改进的分词方法进行外国译名识别的研究[J];计算机仿真;2005年03期
9 卢忠良,王家云,荣融,朱劲松,孙即祥;一种基于模糊聚类的汉语文本自动分类方法[J];计算机应用与软件;2003年10期
10 冯书晓,徐新,杨春梅;国内中文分词技术研究新进展[J];情报杂志;2002年11期
中国重要会议论文全文数据库 前10条
1 闫晓飞;陈良臣;孙功星;;支持向量机多类分类算法的研究[A];第13届全国计算机、网络在现代科学技术领域的应用学术会议论文集[C];2007年
2 张霄军;董宇;陈小荷;;基于语料考察的“组合型歧义”与“切分变异”辨析[A];内容计算的研究与应用前沿——第九届全国计算语言学学术会议论文集[C];2007年
3 石子夜;;置信分词——面向中分信息检索的分词模式[A];第三届全国信息检索与内容安全学术会议论文集[C];2007年
4 王虎;王潜平;;对整词二分自动分词机制的改进[A];中国计算技术与语言问题研究——第七届中文信息处理国际会议论文集[C];2007年
5 孙宏纲;陆余良;;基于二元切分的互联网新闻主题词自动提取研究[A];第三届全国信息检索与内容安全学术会议论文集[C];2007年
6 傅士光;林友芳;万怀宇;徐娟娟;;一种基于规则的中文分词算法[A];中国计算技术与语言问题研究——第七届中文信息处理国际会议论文集[C];2007年
7 陈晓;;中文文本自动分词研究述要[A];第四届全国语言文字应用学术研讨会论文集[C];2005年
8 维尼拉·木沙江;吴俊森;吐尔根·依布拉音;;维吾尔文搜索引擎的倒排索引设计与实现[A];民族语言文字信息技术研究——第十一届全国民族语言文字信息学术研讨会论文集[C];2007年
9 丁国栋;白硕;王斌;;一种基于局部共现的查询扩展方法[A];第二届全国信息检索与内容安全学术会议(NCIRCS-2005)论文集[C];2005年
10 李江波;周强;陈祖舜;;汉语词典的快速查询算法研究[A];第二届全国信息检索与内容安全学术会议(NCIRCS-2005)论文集[C];2005年
中国博士学位论文全文数据库 前10条
1 傅魁;基于Web的本体学习研究[D];武汉理工大学;2007年
2 常娥;古籍智能处理技术研究[D];南京农业大学;2007年
3 何琳;古农学本体的半自动构建及检索研究[D];南京农业大学;2007年
4 宗校军;中文网页定题采集及分类研究[D];华中科技大学;2006年
5 高红;基于统计语言模型的汉语浅层分析研究[D];大连理工大学;2007年
6 颜端武;面向知识服务的智能推荐系统研究[D];南京理工大学;2007年
7 刘政怡;中文整句智能输入方法研究[D];安徽大学;2007年
8 杨传耀;中文信息检索索引模型及相关技术研究[D];复旦大学;2007年
9 赵小兵;基于动态流通语料库的现代汉语基本词汇自动识别与提取方法研究[D];北京语言大学;2007年
10 张素香;信息抽取中关键技术的研究[D];北京邮电大学;2007年
中国硕士学位论文全文数据库 前10条
1 魏进;中文分词技术在公安信息系统中的应用研究[D];解放军信息工程大学;2007年
2 洪艳芬;基于网格的垃圾邮件过滤系统的研究与应用[D];南昌大学;2008年
3 李若鹏;互联网舆情信息管控关键技术研究与实现[D];上海交通大学;2008年
4 肖伟;基于语义的BLOG社区文本倾向性分析[D];上海交通大学;2007年
5 王永景;面向文本识别流的自动校对算法研究[D];上海交通大学;2008年
6 张真;基于语义相似度的中文文本分类系统的研究与实现[D];大连海事大学;2007年
7 黎刚;文本分类中词语权重计算方法的改进及应用[D];重庆大学;2007年
8 程冲;信息检索用汉语分词与未登录词识别技术研究[D];南京农业大学;2007年
9 王敏;基于改进的隐马尔科夫模型汉语词性标注[D];山西大学;2007年
10 庄新妍;基于SVM的中文文本分类系统的研究与实现[D];吉林大学;2007年
【相似文献】
中国期刊全文数据库 前10条
1 梁南元;书面汉语的自动分词与一个自动分词系统—CDWS[J];北京航空航天大学学报;1984年04期
2 刘源,梁南元;汉语处理的基础工程——现代汉语词频统计[J];中文信息学报;1986年01期
3 梁南元;书面汉语自动分词系统—CDWS[J];中文信息学报;1987年02期
4 梁南元;汉语自动分词知识[J];北京航空航天大学学报;1988年04期
5 李国臣,刘开瑛,张永奎;汉语自动分词及歧义组合结构的处理[J];中文信息学报;1988年03期
6 罗为;书面汉语自动分词方法的研究[J];计算机工程;1989年06期
7 江孝感,徐罗丁,李长宁;汉语词素自动分词的一个理想方法[J];现代图书情报技术;1989年02期
8 徐进鸿,邵品洪,李明霞;情报检索数学模型及若干技术进展[J];现代图书情报技术;1990年03期
9 梁南元;汉语计算机自动分词知识[J];中文信息学报;1990年02期
10 杨庆元;鲍心宁;;CJ-Ⅲ微机通用数据库管理系统[J];医学信息学杂志;1990年02期
中国重要会议论文全文数据库 前10条
1 李小明;王亚莉;易立夫;杨静;孙金城;;自动分词中的单字虚词处理[A];新世纪的现代语音学——第五届全国现代语音学学术会议论文集[C];2001年
2 郑家恒;李文花;;新词语自动识别方法研究[A];自然语言理解与机器翻译——全国第六届计算语言学联合学术会议论文集[C];2001年
3 侯敏;;汉语自动分析中的若干问题与对策[A];自然语言理解与机器翻译——全国第六届计算语言学联合学术会议论文集[C];2001年
4 钱揖丽;张虎;;汉语分词及词性标注自动校验方法研究[A];第一届学生计算语言学研讨会论文集[C];2002年
5 陈玉忠;李保利;俞士汶;兰措吉;;基于格助词和接续特征的藏文自动分词方案[A];第一届学生计算语言学研讨会论文集[C];2002年
6 许超;陈小荷;;试评两种商用机译软件的汉语分析能力[A];机器翻译研究进展——2002年全国机器翻译研讨会论文集[C];2002年
7 黄昌宁;高剑峰;李沐;;对自动分词的反思[A];语言计算与基于内容的文本处理——全国第七届计算语言学联合学术会议论文集[C];2003年
8 吴岩;蔺荪;;中文自动查错与人机交互纠错系统的研究与实现—简介语科中文自动校对系统[A];语言计算与基于内容的文本处理——全国第七届计算语言学联合学术会议论文集[C];2003年
9 罗智勇;宋柔;荀恩东;;一种基于可信度的人名识别方法[A];第二届全国学生计算语言学研讨会论文集[C];2004年
10 杨尔弘;方莹;乔羽;;汉语自动分词和词性标注评测[A];第二届全国学生计算语言学研讨会论文集[C];2004年
中国重要报纸全文数据库 前4条
1 实习生 康晨;网络没有唯一:国内中文搜索引擎之比较[N];中国消费者报;2005年
2 王萍;Web文本的知识化管理[N];计算机世界;2006年
3 田梦;软件篇软件只是工具[N];计算机世界;2007年
4 教育部语信司;国家语言资源监测与研究中心召开2007数据发布专题研讨会[N];语言文字周报;2008年
中国博士学位论文全文数据库 前1条
1 冯敏萱;论汉英平行语料的平行处理[D];南京师范大学;2006年
中国硕士学位论文全文数据库 前10条
1 朱珣;中文自动分词系统的研究[D];华中师范大学;2004年
2 杨孝光;中文文本自动分类系统研究—汉语分词及分类器的设计[D];电子科技大学;2004年
3 赵志靖;汉语自动分词技术及其在机器人辅助教育智能接口中的应用研究[D];天津师范大学;2004年
4 胡业江;中文姓名自动识别技术研究[D];华侨大学;2005年
5 陈晴;基于条件随机场的自动分词技术的研究[D];东北大学;2005年
6 张敏;生物学文献的自动标引系统的研究与开发[D];东华大学;2006年
7 张敏;基于Internet的个性化信息检索关键技术研究[D];燕山大学;2006年
8 刘宽;现代汉语自动分词歧义分析及其消歧处理研究[D];兰州理工大学;2006年
9 胡晓军;基于自然汉语的数据库查询研究[D];电子科技大学;2006年
10 贺胜;面向现代汉语文本处理的全文检索、自动分词通用系统[D];南京师范大学;2006年
京ICP证040431号  互联网出版许可证新出网证(京)字008号
销售咨询:800-810-6613、010-62703327 售卡热线:010-62985026
服务热线:400-810-9888、010-62791813、010-62783978
招商热线:010-62982993 投诉电话:010-62791994 ©2008 中国知网(cnki)
关 闭
关 闭
关 闭