收藏本站
《电子与信息学报》 2003年09期
收藏 | 投稿 | 手机打开
二维码
手机客户端打开本文

利用覆盖歧义检测法和统计语言模型进行汉语自动分词

王显芳  杜利民  
【摘要】:该文探讨了利用覆盖歧义检测法和统计语言模型进行汉语自动分词的问题。采用了多次迭代的方法来进行汉语词层面统计语言模型的训练。该方法能够得到更优化的语言模型。该文详细介绍了统计语言模型的训练过程,给出了语言模型复杂度随迭代次数增加而减小的实验结果。还给出了在不同的统计语言模型阶数下切分正确率变化的情况,分析了切分正确率变化的原因。

知网文化
【引证文献】
中国期刊全文数据库 前1条
1 瞿锋;陈纪元;;汉语自动分词算法综述[J];福建电脑;2006年04期
中国博士学位论文全文数据库 前2条
1 王建会;中文信息处理中若干关键技术的研究[D];复旦大学;2004年
2 刘涛;现代信息检索中的文本分类及图像恢复研究[D];北京邮电大学;2006年
中国硕士学位论文全文数据库 前6条
1 赵云峰;面向需求的构件适用性评价模型的研究[D];大连海事大学;2007年
2 刘婷;中文自动分词法在全文检索中的研究及应用[D];南京航空航天大学;2007年
3 温滔;自适应歧义切分的汉语分词系统的设计与实现[D];苏州大学;2005年
4 刘宽;现代汉语自动分词歧义分析及其消歧处理研究[D];兰州理工大学;2006年
5 王思力;面向大规模信息检索的中文分词技术研究[D];中国科学院研究生院(计算技术研究所);2006年
6 王广正;基于知网语义相关度计算的汉语自动分词方法的研究[D];云南师范大学;2006年
【参考文献】
中国期刊全文数据库 前2条
1 孙茂松,左正平,邹嘉彦;高频最大交集型歧义切分字段在汉语自动分词中的作用[J];中文信息学报;1999年01期
2 沈达阳,孙茂松,黄昌宁;基于统计的汉语分词模型及实现方法[J];中文信息;1998年Z1期
【共引文献】
中国期刊全文数据库 前10条
1 温锁林;中文文本歧义字段切分技术[J];语文研究;2001年03期
2 张仰森,丁冰青;基于二元接续关系检查的字词级自动查错方法[J];中文信息学报;2001年03期
3 由丽萍,厉霁隽;“无论”类连词在句法分析中的标记功能——面向信息处理的现代汉语语法研究[J];上海师范大学学报(哲学社会科学版);2003年01期
4 张占英,王中立;中文文本中公司名简称的识别[J];许昌学院学报;2003年02期
5 王伟,钟义信,孙建,杨力;一种基于EM非监督训练的自组织分词歧义解决方案[J];中文信息学报;2001年02期
6 程洁,杜利民;EBMT系统中的多词单元翻译词典获取研究[J];中文信息学报;2004年01期
7 王虹,张仰森;基于词性预测的中文文本自动查错研究[J];贵州师范大学学报(自然科学版);2001年02期
8 支天云,张仰森;基于BP网络的汉语文本词类标注方法[J];山西大学学报(自然科学版);2001年01期
9 罗智勇;宋柔;;现代汉语通用分词系统中歧义切分的实用技术[J];计算机研究与发展;2006年06期
10 王素格,张永奎;汉语词性自动标注系统的设计与实现[J];计算机工程;2001年03期
中国重要会议论文全文数据库 前10条
1 王思力;王斌;;基于双字耦合度的中文分词交叉歧义处理方法[A];内容计算的研究与应用前沿——第九届全国计算语言学学术会议论文集[C];2007年
2 张霄军;董宇;陈小荷;;基于语料考察的“组合型歧义”与“切分变异”辨析[A];内容计算的研究与应用前沿——第九届全国计算语言学学术会议论文集[C];2007年
3 赫琳;;论“X 从小 Y”的词切分——“从小”语义指向计算机识别的再思考[A];中国计算技术与语言问题研究——第七届中文信息处理国际会议论文集[C];2007年
4 余军;陈晓鸥;;命名实体识别:One-at-a-time or All-at-once?Word-based or Character-based?[A];中国计算技术与语言问题研究——第七届中文信息处理国际会议论文集[C];2007年
5 陈晓;;中文文本自动分词研究述要[A];第四届全国语言文字应用学术研讨会论文集[C];2005年
6 Xuri TANG Dept. Foreign Languages Wuhan University of Science and Engineering, 430073, Wuhan, P. R. China;English Morphological Analysis with Machine-learned Rules[A];第20届亚太地区语言、信息和计算国际会议论文集[C];2006年
7 曾华琳;史晓东;李堂秋;;基于上下文信息提取的概率分词算法[A];第六届汉语词汇语义学研讨会论文集[C];2005年
8 靳光瑾;郭曙纶;肖航;章云帆;;语料库加工中的规范问题——谈《信息处理用现代汉语词类标记集规范》[A];语言文字应用研究论文集(Ⅱ)[C];2004年
9 侯敏;;汉语自动分析中的若干问题与对策[A];自然语言理解与机器翻译——全国第六届计算语言学联合学术会议论文集[C];2001年
10 黄昌宁;高剑峰;李沐;;对自动分词的反思[A];语言计算与基于内容的文本处理——全国第七届计算语言学联合学术会议论文集[C];2003年
中国博士学位论文全文数据库 前10条
1 王强军;基于动态流通语料库(DCC)的信息技术领域新术语自动提取研究[D];北京语言文化大学;2003年
2 宋春阳;面向信息处理的现代汉语“名+名”逻辑语义研究[D];上海师范大学;2003年
3 张蕾;概念结构及其应用[D];西北工业大学;2001年
4 刘忠;性质语意理论的提出与自然语言理解及其实现的研究[D];华东师范大学;2004年
5 隋岩;基于“动态流通语料库”的“有效字符串”提取研究[D];北京语言大学;2004年
6 郑逢斌;关于计算机理解自然查询语言的研究[D];西南交通大学;2004年
7 王建会;中文信息处理中若干关键技术的研究[D];复旦大学;2004年
8 郑泽芝;基于动态流通语料库(DCC)的汉语字母词语识别及考察研究[D];北京语言大学;2005年
9 刘伟;现代汉语代词隐现的动态研究[D];北京语言大学;2005年
10 杨尔弘;突发事件信息提取研究[D];北京语言大学;2005年
中国硕士学位论文全文数据库 前10条
1 魏进;中文分词技术在公安信息系统中的应用研究[D];解放军信息工程大学;2007年
2 王刚;连词“和”的自动识别规则研究[D];上海师范大学;2007年
3 王敏;基于改进的隐马尔科夫模型汉语词性标注[D];山西大学;2007年
4 朱丽丽;基于类比学习的人名识别方法研究[D];山西大学;2007年
5 黎刚;文本分类中词语权重计算方法的改进及应用[D];重庆大学;2007年
6 刘信杰;基于遗传算法和朴素贝叶斯分类的邮件过滤系统研究[D];合肥工业大学;2007年
7 陈宏彦;规则和统计相结合的分词算法[D];太原理工大学;2007年
8 许高建;文本挖掘关键技术研究及实现[D];合肥工业大学;2007年
9 宋德洪;基于儿童心理调适的对话系统研究[D];四川师范大学;2007年
10 张旭;一个基于词典与统计的中文分词算法[D];电子科技大学;2007年
【同被引文献】
中国期刊全文数据库 前10条
1 冯冲;陈肇雄;黄河燕;关真珍;;基于Multigram语言模型的主动学习中文分词[J];中文信息学报;2006年01期
2 吕学强,任飞亮,黄志丹,姚天顺;句子相似模型和最相似句子查找算法[J];东北大学学报(自然科学版);2003年06期
3 常继传,李克勤,郭立峰,梅宏,杨芙清;青鸟系统中可复用软件构件的表示与查询[J];电子学报;2000年08期
4 杨芙清,王千祥,梅宏,陈兆良;基于复用的软件生产技术[J];中国科学E辑;2001年04期
5 贾晓辉,陈德华,严梅,乐嘉锦,丁晓东;基于刻面描述的构件查询匹配模型及算法研究[J];计算机研究与发展;2004年10期
6 盛津芳;王斌;张尧学;陈松乔;;商业构件评价与选择方法研究[J];计算机科学;2006年06期
7 杨尔弘;方莹;刘冬明;乔羽;;汉语自动分词和词性标注评测[J];中文信息学报;2006年01期
8 林正奎,杨德礼;软件构件复用技术综述[J];计算机工程与设计;2004年06期
9 罗智勇,宋柔;一种基于可信度的人名识别方法[J];中文信息学报;2005年03期
10 周文帅;冯速;;汉语分词技术研究现状与应用展望[J];山西师范大学学报(自然科学版);2006年01期
中国重要会议论文全文数据库 前1条
1 高山;张艳;徐波;宗成庆;韩兆兵;;基于三元统计模型的汉语分词及标注一体化研究[A];自然语言理解与机器翻译——全国第六届计算语言学联合学术会议论文集[C];2001年
中国博士学位论文全文数据库 前3条
1 肖明;WWW科技信息资源自动标引的理论与实践研究[D];中国科学院文献情报中心;2001年
2 薛德军;中文文本自动分类中的关键问题研究[D];清华大学;2004年
3 李荣陆;文本分类及其相关技术研究[D];复旦大学;2005年
中国硕士学位论文全文数据库 前5条
1 张小惠;构件技术在开发MIS中的应用研究[D];华中师范大学;2002年
2 王省;基地统计和规则的中文姓名识别系统的研制[D];大连理工大学;2000年
3 俞鸿魁;基于层次隐马尔可夫模型的汉语词法分析和命名实体识别技术[D];北京化工大学;2004年
4 朱珣;中文自动分词系统的研究[D];华中师范大学;2004年
5 罗小虎;基于蚁群算法的汉语自动分词的研究与实现[D];苏州大学;2004年
【二级引证文献】
中国期刊全文数据库 前1条
1 王圆;孙铁利;李杨;;Web文本挖掘中的特征表示和特征提取[J];电脑知识与技术;2006年14期
中国博士学位论文全文数据库 前2条
1 王树梅;信息检索相关技术研究[D];南京理工大学;2007年
2 刘向威;NLP技术在中文信息检索中的应用研究[D];天津大学;2005年
中国硕士学位论文全文数据库 前8条
1 魏进;中文分词技术在公安信息系统中的应用研究[D];解放军信息工程大学;2007年
2 李俊杰;基于自然语言处理技术的消化科内窥镜检查报告的结构化[D];浙江大学;2007年
3 刘淑龙;基于P2P平台的自然语言搜索系统的研究[D];南京航空航天大学;2007年
4 苏力华;基于向量空间模型的文本分类技术研究[D];西安电子科技大学;2006年
5 贺胜;面向现代汉语文本处理的全文检索、自动分词通用系统[D];南京师范大学;2006年
6 台德艺;基于特征权重算法的文本分类研究[D];合肥工业大学;2007年
7 郭翠珍;基于网格的分词服务系统的研究与实现[D];苏州大学;2006年
8 张淑梅;词典与后缀数组相结合的中文分词[D];吉林大学;2006年
【二级参考文献】
中国期刊全文数据库 前2条
1 刘开瑛;现代汉语自动分词评测技术研究[J];语言文字应用;1997年01期
2 何克抗,徐辉,孙波;书面汉语自动分词专家系统设计原理[J];中文信息学报;1991年02期
【相似文献】
中国期刊全文数据库 前2条
1 王显芳,杜利民;利用覆盖歧义检测法和统计语言模型进行汉语自动分词[J];电子与信息学报;2003年09期
2 瞿锋;陈纪元;;汉语自动分词算法综述[J];福建电脑;2006年04期
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62791813
  • 010-62985026