收藏本站
《情报学报》 2002年03期
收藏 | 投稿 | 手机打开
二维码
手机客户端打开本文

基于EM算法的汉语自动分词方法

李家福  张亚非  
【摘要】:汉语自动分词是中文信息处理中的基础课题。本文首先对汉语分词的基本概念与应用 ,以及汉语分词的基本方法进行了概述。接着引出一种根据词的出现概率、基于极大似然原则构建的汉语自动分词的零阶马尔可夫模型 ,并重点剖析了EM(Expectation Maximization)算法 ,对实验结果进行了分析。最后对算法进行了总结与讨论。

【引证文献】
中国期刊全文数据库 前10条
1 文庭孝;汉语自动分词研究进展[J];图书与情报;2005年05期
2 鲁强;金伟祖;;基于FMM和CRFs双层分词模型的研究[J];电脑知识与技术;2008年28期
3 李红霞;易丽萍;;EM无监督汉语分词算法[J];电脑知识与技术;2009年12期
4 刘晓英;汉语自动分词研究的发展趋势[J];高校图书馆工作;2005年04期
5 解烈军,侯晓荣,周彩莲;基于规则的几何语言自动分词算法[J];淮阴师范学院学报(自然科学版);2004年02期
6 吴春尧;曲文龙;杨炳儒;;基于用户评价的查询串与搜索结果特征权重计算[J];计算机工程;2007年02期
7 曾华琳,李堂秋,史晓东;一种基于提取上下文信息的分词算法[J];计算机应用;2005年09期
8 吴春颖;王士同;;基于二元语法的N-最大概率中文粗分模型[J];计算机应用;2007年12期
9 易丽萍;叶水生;吴喜兰;;一种改进的汉语分词算法[J];计算机与现代化;2007年02期
10 索娟娟;于宝英;;基于灰熵的汉语机器翻译消歧研究[J];科技信息;2012年03期
中国重要会议论文全文数据库 前1条
1 曾华琳;史晓东;李堂秋;;基于上下文信息提取的概率分词算法[A];第六届汉语词汇语义学研讨会论文集[C];2005年
中国博士学位论文全文数据库 前3条
1 钱俊;单幅雷达影像测图原理研究[D];武汉大学;2004年
2 乔林;基于多关键词检索的企业竞争情报搜集方法研究[D];中国科学技术大学;2006年
3 刘涛;现代信息检索中的文本分类及图像恢复研究[D];北京邮电大学;2006年
中国硕士学位论文全文数据库 前10条
1 刘军;基于论点倾向的网络信息内容实时分析研究[D];四川大学;2003年
2 罗小虎;基于蚁群算法的汉语自动分词的研究与实现[D];苏州大学;2004年
3 马哲;垃圾邮件过滤系统的研究与实现[D];浙江大学;2005年
4 杨超;基于最大匹配的书面汉语自动分词研究[D];湖南大学;2004年
5 赵艳芳;面向Internet的个性化信息服务的研究[D];云南师范大学;2005年
6 温滔;自适应歧义切分的汉语分词系统的设计与实现[D];苏州大学;2005年
7 张金伟;基于Agent网络答疑系统的设计与实现[D];华东师范大学;2006年
8 邹丹;基于Web的中文文本分类的研究与实现[D];中国地质大学(北京);2006年
9 王懿;基于自然语言处理和机器学习的文本分类及其应用研究[D];中国科学院研究生院(成都计算机应用研究所);2006年
10 许顺;中文分词规范可计算化的研究与实现[D];苏州大学;2006年
【同被引文献】
中国期刊全文数据库 前10条
1 谢新洲,包昌火,张燕;论企业竞争情报系统的建设[J];北京大学学报(哲学社会科学版);2001年06期
2 曹德和;;中文分词连写的问题与对策[J];北华大学学报(社会科学版);2006年01期
3 王卫兵;;中文分词连写可行性考察[J];北华大学学报(社会科学版);2006年01期
4 吴文超;;中文需要分词连写[J];北华大学学报(社会科学版);2007年05期
5 龚汉明,周长胜;汉语分词技术综述[J];北京机械工业学院学报;2004年03期
6 梁南元;书面汉语的自动分词与一个自动分词系统—CDWS[J];北京航空学院学报;1984年04期
7 梁南元;汉语自动分词知识[J];北京航空学院学报;1988年04期
8 顾益军,樊孝忠,王建华,汪涛,黄维金;中文停用词表的自动选取[J];北京理工大学学报;2005年04期
9 许云,樊孝忠,张锋;基于知网的语义相关度计算[J];北京理工大学学报;2005年05期
10 孙健,王伟,钟义信;基于K-最近距离的自动文本分类的研究[J];北京邮电大学学报;2001年01期
中国重要会议论文全文数据库 前1条
1 郭曙纶;;汉语语料库大规模统计与小规模统计的对比[A];第二届全国教育教材语言专题学术研讨会论文集[C];2008年
中国博士学位论文全文数据库 前4条
1 郑逢斌;关于计算机理解自然查询语言的研究[D];西南交通大学;2004年
2 薛德军;中文文本自动分类中的关键问题研究[D];清华大学;2004年
3 李荣陆;文本分类及其相关技术研究[D];复旦大学;2005年
4 颜端武;面向知识服务的智能推荐系统研究[D];南京理工大学;2007年
中国硕士学位论文全文数据库 前10条
1 王省;基地统计和规则的中文姓名识别系统的研制[D];大连理工大学;2000年
2 钱小军;Web文本挖掘技术研究及其实现[D];浙江大学;2002年
3 许林杰;中文文本分词研究[D];山东师范大学;2003年
4 陈波;中文统计自然语言处理隐马模型的研究[D];重庆大学;2003年
5 朱珣;中文自动分词系统的研究[D];华中师范大学;2004年
6 罗小虎;基于蚁群算法的汉语自动分词的研究与实现[D];苏州大学;2004年
7 阮若林;基于多Agent的远程协同教学环境的研究与设计[D];武汉理工大学;2005年
8 杨超;基于最大匹配的书面汉语自动分词研究[D];湖南大学;2004年
9 代建英;汉语自动分词系统的研究与实现[D];重庆大学;2005年
10 张晓淼;基于神经网络的中文分词算法的研究[D];大连理工大学;2006年
【二级引证文献】
中国期刊全文数据库 前10条
1 程卫华;尤晋元;;基于内容过滤的反垃圾邮件系统的设计与实现[J];安徽大学学报(自然科学版);2007年03期
2 董妍汝;;中文分词技术在搜索引擎中的应用[J];办公自动化;2010年04期
3 冯哲;孙吉贵;张长胜;王岩;;汉语语音合成的研究进展[J];吉林大学学报(信息科学版);2007年02期
4 魏华,李扬继;基于树的多关键词搜索算法在网络监控系统中的应用[J];成都信息工程学院学报;2005年01期
5 张林曼;吴升;;地理编码系统中地名地址分词算法研究[J];测绘科学;2010年02期
6 刘春辉;金顺福;刘国华;李颖;;基于优化最大匹配与统计结合的汉语分词方法[J];燕山大学学报;2009年02期
7 冯素琴;陈惠明;;利用上下文信息解决汉语组合型歧义[J];电脑开发与应用;2007年01期
8 陈频;;基于自然语言处理的中文科技论文特征提取研究[J];电脑知识与技术(学术交流);2007年16期
9 梁铭;;基于英汉平行语料库术语词典的自动抽取[J];电脑知识与技术;2009年19期
10 马婷婷;;中文自动分词系统概述[J];电脑知识与技术;2010年33期
中国重要会议论文全文数据库 前8条
1 刮俊杰;吴树国;伊胜伟;;基于词效应的中文术语提取方法[A];第三届中国智能计算大会论文集[C];2009年
2 何楠;毛新年;董远;王海拉;;基于转换的错误学习方法在中文分词后处理中的应用[A];中国计算技术与语言问题研究——第七届中文信息处理国际会议论文集[C];2007年
3 李寿山;黄居仁;;基于词边界分类的中文分词方法[A];中国计算机语言学研究前沿进展(2007-2009)[C];2009年
4 刘东生;尹宝生;张桂平;徐立军;苗雪雷;;面向专利文献的中文分词技术的研究[A];第五届全国信息检索学术会议论文集[C];2009年
5 赵伟;路永刚;吴琼;;一种新的基于BMM和RMM分词方法的研究与实现[A];第二十三届中国数据库学术会议论文集(技术报告篇)[C];2006年
6 ;Research on Chinese Word Segmentation Algorithm Based on Special Identifiers[A];Proceedings of 2010 Second International Conference on E-Learning, E-Business, Enterprise Information Systems, and E-Government (EEEE 2010) Volume 1[C];2010年
7 ;Design and Implementation of Intelligent Question Answering System Based on Ontology[A];Proceedings of 2010 Second International Conference on Computational Intelligence and Natural Computing (CINC 2010) Volume 1[C];2010年
8 修驰;宋柔;;基于“大词”实例的中文分词研究[A];中国计算语言学研究前沿进展(2009-2011)[C];2011年
中国博士学位论文全文数据库 前10条
1 刘涛;现代信息检索中的文本分类及图像恢复研究[D];北京邮电大学;2006年
2 张春霞;领域文本知识获取方法研究及其在考古领域中的应用[D];中国科学院研究生院(计算技术研究所);2005年
3 姜韶华;科研项目管理中的文本挖掘方法研究及应用[D];大连理工大学;2006年
4 杨传耀;中文信息检索索引模型及相关技术研究[D];复旦大学;2007年
5 颜端武;面向知识服务的智能推荐系统研究[D];南京理工大学;2007年
6 黄魏;植物营养诊断自动应答网络专家系统研究[D];华中农业大学;2007年
7 常娥;古籍智能处理技术研究[D];南京农业大学;2007年
8 何琳;古农学本体的半自动构建及检索研究[D];南京农业大学;2007年
9 傅魁;基于Web的本体学习研究[D];武汉理工大学;2007年
10 宋歌;中医酒病证治理论总结与解酒方实验研究[D];广州中医药大学;2008年
中国硕士学位论文全文数据库 前10条
1 李金华;基于SVM的多类文本分类研究[D];山东科技大学;2010年
2 刘洋;基于本体的医保审计知识库构建研究[D];哈尔滨工程大学;2010年
3 刘靖媛;个性搜索引擎中用户兴趣模型研究[D];哈尔滨工程大学;2010年
4 刘金宁;词性标注体系对中文分词的影响[D];大连理工大学;2010年
5 许锦;基于本体的智能答疑系统研究与实现[D];江西师范大学;2010年
6 杨红颖;基于多Agent技术的智能化网络教学系统研究与设计[D];大连海事大学;2010年
7 苏俊峰;基于HMM的藏语语料库词性自动标注研究[D];西北民族大学;2010年
8 钟鸿鹏;基于时态信息的网页排序系统的研究与实现[D];华南理工大学;2010年
9 史迎馨;建筑图中有限自然语言的分析与理解的研究[D];长春工业大学;2010年
10 徐德玉;中文文档内容相似度检测方法研究[D];长春工业大学;2010年
【相似文献】
中国期刊全文数据库 前10条
1 李家福,张亚非;一种基于概率模型的分词系统[J];系统仿真学报;2002年05期
2 陈锴,柴佩琪;提高英语语音语料库自动切分准确性的方法[J];微电子学与计算机;2004年05期
3 张伟伟;冯大政;;基于HFM和感知后滤波器的语音增强[J];电子科技;2007年09期
4 赵颖;;基于HMM的藏语TTS语调韵律预测[J];西南民族大学学报(自然科学版);2010年06期
5 苏俊峰;祁坤钰;本太;;基于HMM的藏语语料库词性自动标注研究[J];西北民族大学学报(自然科学版);2009年01期
6 祝瑶卿,柴佩琪;基于HMM连接语音自动切分中的初始化模型研究[J];微型电脑应用;2003年07期
7 徐超,吴芸;基于TMS320C30语音命令多媒体人机交互系统[J];电子技术应用;1998年09期
8 陈志鑫,郭华伟;基于TMS320C54×DSP的实时语音识别系统[J];半导体技术;2001年04期
9 赵力,邹采荣,吴镇扬;基于分段模糊聚类算法的VQ-HMM语音识别模型参数估计[J];电路与系统学报;2002年03期
10 冯长建,丁启全,吴昭同,童进;SOFM和HMM在旋转机械升降速全过程故障诊断中的应用[J];上海海运学院学报;2001年03期
中国重要会议论文全文数据库 前10条
1 郭曙纶;;基于语料库的HSK多功能例解字典:设想与样例[A];2004年辞书与数字化研讨会论文集[C];2004年
2 梁红梅;尹晓霞;李宇庄;;有关语料库驱动下的外语在线自主学习的工作底稿[A];全国大学英语教学改革暨网络环境下外语教学学术研讨会论文集[C];2004年
3 许小星;亢世勇;孙茂松;刘金凤;;语料库语义成分标注的若干问题[A];第三届学生计算语言学研讨会论文集[C];2006年
4 宋鸿彦;刘军;姚天昉;刘全升;黄高辉;;汉语意见型主观性文本标注语料库的构建[A];第四届全国信息检索与内容安全学术会议论文集(上)[C];2008年
5 黄玉;李生;孟遥;丁华福;;基于大规模语料库的英语从句识别[A];第一届学生计算语言学研讨会论文集[C];2002年
6 李明;;语料库·蓝本·双语词典[A];中国辞书学会双语词典专业委员会第五届年会暨学术研讨会论文集[C];2003年
7 郭启新;;论语料库与英汉词典配例[A];中国辞书学会双语词典专业委员会第四届年会暨学术研讨会论文集[C];2001年
8 蔡莲红;蔡锐;吴志勇;陶建华;;语音合成语料库的设计与声学特征分析[A];中国声学学会2002年全国声学学术会议论文集[C];2002年
9 孙述学;;新词语语料库建设的一些构想[A];2004年辞书与数字化研讨会论文集[C];2004年
10 王仁华;胡郁;李威;凌震华;;基于决策树的汉语大语料库合成系统[A];第六届全国人机语音通讯学术会议论文集[C];2001年
中国重要报纸全文数据库 前10条
1 本报记者 周建华;数字战略打造核心竞争力[N];中国图书商报;2001年
2 记者 王坤宁;商务方正合作开发辞书语料库及编纂系统[N];中国新闻出版报;2002年
3 卢伟;文学语言的语料库研究方法[N];文艺报;2004年
4 记者 曹秀娟;省社科院两项目获得国家社会科学基金[N];山西日报;2010年
5 顾曰国;语料库语言学的发展[N];中国社会科学院院报;2003年
6 陈劲宏;东方快车2003之新鲜体验[N];中国电脑教育报;2002年
7 李大庆;迎来光与电告别铅与火[N];科技日报;2002年
8 ;探索普通话自然连续语音之规律[N];光明日报;2001年
9 本报记者 陈友梅;让电脑说人话[N];中国计算机报;2001年
10 闫宏志;全文翻译技术发展脉络[N];中国计算机报;2003年
中国博士学位论文全文数据库 前10条
1 郑术蓉;线性不等式约束下的EM算法[D];吉林大学;2004年
2 张廷香;基于语料库的3-6岁汉语儿童词汇研究[D];山东大学;2010年
3 夏云;基于语料库的英汉翻译小说常规化研究:历时的视角[D];山东大学;2010年
4 何婷婷;语料库研究[D];华中师范大学;2003年
5 段江娇;基于模型的时间序列数据挖掘[D];复旦大学;2008年
6 王青;基于语料库的《尤利西斯》汉译本译者风格研究[D];山东大学;2010年
7 唐斌;《人民日报》中(1987-2007)农民工的话语再现[D];上海外国语大学;2010年
8 王丽;基于语料库的中国学习者英语口语中语用标记语研究[D];上海交通大学;2008年
9 徐欣;基于语料库的英汉小说语篇中话语标记功能研究[D];山东大学;2011年
10 张建梅;基于语料库的现代蒙古语简单陈述句句型分析研究[D];内蒙古大学;2010年
中国硕士学位论文全文数据库 前10条
1 岳炳词;面向语言学研究的大规模汉语生语料库检索工具CCRLT[D];北京工业大学;2001年
2 徐琰;基于语料库的ONLY研究[D];大连海事大学;2003年
3 杨丽萍;基于语料库的英语专业大学生议论文限时写作中的四字词块研究[D];江西师范大学;2010年
4 苏俊峰;基于HMM的藏语语料库词性自动标注研究[D];西北民族大学;2010年
5 李淼;用先进的语料库工具推进英语教学[D];首都师范大学;2004年
6 丁春忠;学生成绩评价中的因子分析[D];苏州大学;2004年
7 李春青;[D];电子科技大学;2004年
8 韩雄振;基于统计学的预测结构域间相互作用方法的研究[D];吉林大学;2006年
9 赵红;对含有缺失基因型数据的家系进行单倍型推断的EM方法[D];东北师范大学;2006年
10 涂庆;中小样本的拟合优度检验[D];华中师范大学;2007年
中国知网广告投放
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62791813
  • 010-62985026