收藏本站
《贵州大学学报(自然科学版)》 2011年05期
收藏 | 投稿 | 手机打开
二维码
手机客户端打开本文

基于改进的正向最大匹配中文分词算法研究

王惠仙  龙华  
【摘要】:中文自动分词技术在中文信息处理、Web文档挖掘等处理文档类研究中是一项关键技术,而分词算法是其中的核心。正向最大匹配算法FMM(Forward Maximum Match)具有切分速度快、简洁、容易实现等优点,但是还存在分词过程中设定的最大词长初始值固定不变的问题,带来匹配次数相对较多的弊端。针对此问题提出了根据中文词典中的词条长度动态确定截取待处理文本长度的思想,改进了FMM算法,并用互信息统计来消除交集型歧义。最后,通过实验对算法进行了分词和验证,结果表明改进的算法与一般正向最大匹配算法相比,中文分词的准确率提高了。
【作者单位】昆明理工大学信息工程与自动化学院;
【分类号】:TP391.1

【参考文献】
中国期刊全文数据库 前3条
1 胡锡衡;;正向最大匹配法在中文分词技术中的应用[J];鞍山师范学院学报;2008年02期
2 于洪波;;中文分词技术研究[J];东莞理工学院学报;2010年05期
3 何国斌;赵晶璐;;汉语文本自动分词算法的研究[J];计算机工程与应用;2010年03期
【共引文献】
中国期刊全文数据库 前10条
1 黄美璇;;基于主题发现的舆情分析系统的设计与实现[J];北京联合大学学报(自然科学版);2012年01期
2 刘红芝;;中文分词技术的研究[J];电脑开发与应用;2010年03期
3 綦科;谢冬青;;基于内容的短信分类系统的设计与实现[J];广州大学学报(自然科学版);2011年05期
4 岳强斌;欧渊;石倩;;装备维修流程设计需求聚类分析[J];重庆理工大学学报(自然科学);2012年12期
5 王舜燕;邱昌程;宁海波;张梅芬;;构件搜索中需求描述关键词提取方法[J];计算机与数字工程;2009年11期
6 吴旭东;;正向最大匹配分词算法的分析与改进[J];科技传播;2011年20期
7 向志华;梁玉英;;自然语言处理技术在网络答疑系统中的应用[J];牡丹江师范学院学报(自然科学版);2012年02期
8 杨毅;王禹桥;;中文分词词典机制:次字拼音首字母哈希机制[J];计算机工程与设计;2010年06期
9 蒋建洪;赵嵩正;罗玫;;词典与统计方法结合的中文分词模型研究及应用[J];计算机工程与设计;2012年01期
10 李宏波;;词典与统计相结合的中文分词算法研究[J];武汉理工大学学报(信息与管理工程版);2010年06期
中国硕士学位论文全文数据库 前10条
1 蒋祥杰;基于用户情境本体的个性化知识服务研究[D];武汉理工大学;2010年
2 王慧;最大熵模型的语义句法分析在问答系统中的应用研究[D];大连交通大学;2010年
3 李原;中文文本分类中分词和特征选择方法研究[D];吉林大学;2011年
4 李伟;搜索引擎核心词提取系统设计与实现[D];北京交通大学;2011年
5 梅筱;视频特征及其描述词汇的对齐研究[D];北京邮电大学;2011年
6 郭志华;基于字符属性的关系数据库零水印算法研究[D];兰州大学;2011年
7 陈正思;基于TRS信息检索技术的文献资源统一检索平台的构建[D];中南大学;2011年
8 马秋明;基于感知机优化的BP神经网络邮件分类算法研究[D];电子科技大学;2011年
9 苑春燕;基于过滤技术的投诉信息智能分析与实现[D];沈阳理工大学;2011年
10 何爱元;基于词典和概率统计的中文分词算法研究[D];辽宁大学;2011年
【二级参考文献】
中国期刊全文数据库 前10条
1 文庭孝;汉语自动分词研究进展[J];图书与情报;2005年05期
2 刘红芝;;中文分词技术的研究[J];电脑开发与应用;2010年03期
3 陈桂林,王永成,韩客松,王刚;一种改进的快速分词算法[J];计算机研究与发展;2000年04期
4 李荣陆,王建会,陈晓云,陶晓鹏,胡运发;使用最大熵模型进行中文文本分类[J];计算机研究与发展;2005年01期
5 唐培丽,胡明,张勇;基于中文文本主题提取的分词方法研究[J];吉林工程技术师范学院学报;2005年02期
6 湛燕,陈昊,袁方,王熙照;基于中文文本分类的分词方法研究[J];计算机工程与应用;2003年23期
7 刘迁;贾惠波;;中文信息处理中自动分词技术的研究与展望[J];计算机工程与应用;2006年03期
8 翟伟斌;周振柳;蒋卓明;许榕生;;汉语分词词典设计[J];计算机工程与应用;2007年01期
9 曾华琳,李堂秋,史晓东;一种基于提取上下文信息的分词算法[J];计算机应用;2005年09期
10 梁南元;书面汉语自动分词系统—CDWS[J];中文信息学报;1987年02期
【相似文献】
中国期刊全文数据库 前10条
1 王艳;元昌安;覃晓;彭昱忠;宋叶俊;;基于VC++/MFC的中文自动分词算法及其软件的实现[J];广西师范学院学报(自然科学版);2008年03期
2 魏福官;郑孝安;;一种基于知识的书面汉语自动分词方法[J];现代电力;1993年04期
3 王磊,杨学良;图书馆检索系统及其汉语自动分词的实现[J];通信世界;1999年09期
4 张培颖;李村合;;一种中文分词词典新机制——四字哈希机制[J];微型电脑应用;2006年10期
5 蔡灿民;吴晟;霍雪娜;赵莉楠;;自动分词中智能词典的研究[J];科技广场;2007年03期
6 邱冰;皇甫娟;;基于中文信息处理的古代汉语分词研究[J];微计算机信息;2008年24期
7 焦慧;刘迁;贾惠波;;一种基于词编码的中文文档格式[J];计算机科学;2008年10期
8 李振星,徐泽平,唐卫清,唐荣锡;全二分最大匹配快速分词算法[J];计算机工程与应用;2002年11期
9 焦慧;刘迁;贾惠波;;基于词平台的中文文档实验系统的构建[J];微计算机信息;2008年18期
10 杨尔弘;方莹;刘冬明;乔羽;;汉语自动分词和词性标注评测[J];中文信息学报;2006年01期
中国重要会议论文全文数据库 前10条
1 李斌;陈小荷;;面向中文陌生文本的人机交互式分词方法[A];第三届学生计算语言学研讨会论文集[C];2006年
2 徐艳华;;面向自动分词的三音节新词语构词法研究[A];中国计算语言学研究前沿进展(2009-2011)[C];2011年
3 郑家恒;李文花;;新词语自动识别方法研究[A];自然语言理解与机器翻译——全国第六届计算语言学联合学术会议论文集[C];2001年
4 黄昌宁;高剑峰;李沐;;对自动分词的反思[A];语言计算与基于内容的文本处理——全国第七届计算语言学联合学术会议论文集[C];2003年
5 高璐;陈琪;李永宏;于洪志;;藏语语音合成中本文分析的若干问题研究[A];第九届中国语音学学术会议论文集[C];2010年
6 ;中国中文信息学会交流材料[A];2011年网络学术交流研讨会交流材料[C];2011年
7 陈晓;;中文文本自动分词研究述要[A];第四届全国语言文字应用学术研讨会论文集[C];2005年
8 孙玉芳;;中文信息处理与国家信息化建设[A];面向21世纪的科技进步与社会经济发展(上册)[C];1999年
9 陈文亮;朱靖波;吕学强;姚天顺;;词性标注规则的获取和优化[A];第一届学生计算语言学研讨会论文集[C];2002年
10 李小明;王亚莉;易立夫;杨静;孙金城;;自动分词中的单字虚词处理[A];新世纪的现代语音学——第五届全国现代语音学学术会议论文集[C];2001年
中国重要报纸全文数据库 前10条
1 广文;挖掘缝隙市场[N];国际经贸消息;2002年
2 记者 胡京春;挖掘煤炭工业的巨大潜力[N];人民政协报;2000年
3 上海大唐 孙玉望;挖掘GSM潜力 以求最大回报[N];人民邮电;2000年
4 ;在次新股中挖掘黑马[N];山西经济日报;2001年
5 张树坤 编绎;酒店需挖掘互联网潜力[N];中国旅游报;2000年
6 本报记者 陈爽;挖掘“第三利润源泉”[N];网络世界;2001年
7 本报通讯员 燕德全 宋双兴 特约记者 邓清;文物挖掘应慎之又慎[N];人民政协报;2000年
8 赵忠勋 王庆祝 舒艳;突出文化氛围 深层次挖掘旅游资源[N];河北经济日报;2000年
9 ;机电产品为主导 发展潜力待挖掘[N];中国机电日报;2000年
10 洪磊;从传统文化里挖掘意义[N];华夏时报;2002年
中国博士学位论文全文数据库 前10条
1 宋春阳;面向信息处理的现代汉语“名+名”逻辑语义研究[D];上海师范大学;2003年
2 由丽萍;构建现代汉语框架语义知识库技术研究[D];上海师范大学;2006年
3 周卫华;面向中文信息处理的现代汉语动宾语义搭配研究[D];华中师范大学;2007年
4 刘涛;现代信息检索中的文本分类及图像恢复研究[D];北京邮电大学;2006年
5 冯敏萱;论汉英平行语料的平行处理[D];南京师范大学;2006年
6 黄魏;植物营养诊断自动应答网络专家系统研究[D];华中农业大学;2007年
7 詹卫东;面向中文信息处理的现代汉语短语结构规则研究[D];北京大学;1999年
8 姜韶华;科研项目管理中的文本挖掘方法研究及应用[D];大连理工大学;2006年
9 李琼;汉语复句书读前后语言片段的非分句识别[D];华中师范大学;2008年
10 刘磊;概念内涵属性计算研究[D];上海交通大学;2011年
中国硕士学位论文全文数据库 前10条
1 陈鹏宇;现代汉语自动分词研究及几个算法的实现[D];电子科技大学;2008年
2 蔡灿民;基于词典的智能分词系统的研究与实现[D];昆明理工大学;2008年
3 陶东成;基于Linux和XIM协议的中文输入法服务器的实现及其应用[D];苏州大学;2004年
4 罗忠毅;数字化中医古籍的理想模式及其相关问题研究[D];成都中医药大学;2005年
5 王敏;基于改进的隐马尔科夫模型汉语词性标注[D];山西大学;2007年
6 党兰学;汉字语法语义智能输入法总体设计与部分实现[D];河南大学;2006年
7 傅成宏;现代汉语兼语结构的自动识别[D];南京师范大学;2007年
8 白晓梅;校园网中文搜索引掣系统的设计与实现[D];吉林大学;2006年
9 曹林峰;中文文字差错率统计软件的实现[D];西安电子科技大学;2007年
10 刘桂梅;周有光语文改革思想研究[D];山东师范大学;2005年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62791813
  • 010-62985026