收藏本站
《燕山大学学报》 2009年02期
收藏 | 投稿 | 手机打开
二维码
手机客户端打开本文

基于优化最大匹配与统计结合的汉语分词方法

刘春辉  金顺福  刘国华  李颖  
【摘要】:汉语自动分词是中文信息处理的前提,如何提高分词效率是中文信息处理技术面临的一个主要问题。基于词典和基于统计的分词方法是现有分词技术的主要方法,但是前者无法处理歧义字段,后者需要大量的词频计算耗费时间。本文提出优化最大匹配与统计结合的分词方法,首先提出优化最大匹配算法,在此基础上提出了规则判断与信息量统计两种消歧策略。然后,给出了优化最大匹配与统计结合的分词算法,提高了分词的效率。最后,基于分词算法实现中文分词系统,并通过实验对算法进行了分析和验证。
【作者单位】燕山大学信息科学与工程学院;
【基金】:国家自然科学基金资助项目(60773100)
【分类号】:TP391.1

【引证文献】
中国期刊全文数据库 前5条
1 周宏宇;张政;;中文分词技术综述[J];安阳师范学院学报;2010年02期
2 李国和;刘光胜;吴卫江;孙红军;唐先明;韩宝东;;基于最大匹配和歧义检测的中文分词粗分方法[J];北京信息科技大学学报(自然科学版);2010年S2期
3 李国和;刘光胜;秦波波;吴卫江;李洪奇;;综合最大匹配和歧义检测的中文分词粗分方法[J];计算机工程与应用;2012年14期
4 张彩琴;袁健;;改进的正向最大匹配分词算法[J];计算机工程与设计;2010年11期
5 魏莎莎;熊海灵;;中文分词中的歧义识别处理策略[J];微计算机信息;2010年30期
中国硕士学位论文全文数据库 前10条
1 张盛蕾;基于Java的浙江纺织服装学院校园网搜索引擎[D];电子科技大学;2010年
2 林冬盛;中文分词算法的研究与实现[D];西北大学;2011年
3 林捷;主题网络爬虫的研究和实现[D];武汉理工大学;2011年
4 魏莎莎;一种中文未登录词识别及词典设计新方法[D];西南大学;2011年
5 徐辰;基于主题分类特征的物业评论情感分析[D];苏州大学;2011年
6 岳莉;基于Lucene的全文检索系统的研究与应用[D];西安电子科技大学;2010年
7 董萍;基于知网语义关系的中文事件信息抽取研究[D];西安电子科技大学;2010年
8 陈航哲;基于Lucene的垂直搜索引擎的研究与应用[D];暨南大学;2010年
9 李力人;基于林业主题词表语义关系网的文献聚类[D];北京林业大学;2010年
10 霍娜;突发事件追踪报道信息抽取的研究[D];山西大学;2012年
【参考文献】
中国期刊全文数据库 前10条
1 王显芳,杜利民;利用覆盖歧义检测法和统计语言模型进行汉语自动分词[J];电子与信息学报;2003年09期
2 王东;陈笑蓉;;一种改进的高效分词词典机制[J];贵州大学学报(自然科学版);2007年04期
3 蒋斌;杨超;赵欢;;基于二字词位图表的汉语自动分词词典机制[J];湖南大学学报(自然科学版);2006年01期
4 郑德权,于凤,王开涛 ,赵铁军;基于汉语二字应成词的歧义字段切分方法[J];计算机工程与应用;2003年01期
5 朱鉴;张建;李淼;;一种有效解决汉语歧义切分的方法[J];计算机工程与应用;2007年11期
6 金瑜,陆启明,高峰;基于上下文相关的最大概率汉语自动分词算法[J];计算机工程;2004年16期
7 马玉春,宋瀚涛;Web中文文本分词技术研究[J];计算机应用;2004年04期
8 曾华琳,李堂秋,史晓东;一种基于提取上下文信息的分词算法[J];计算机应用;2005年09期
9 闫引堂,周晓强;交集型歧义字段切分方法研究[J];情报学报;2000年06期
10 李凯,左万利,吕巍;汉语文本中交集型切分歧义的分类处理[J];小型微型计算机系统;2004年08期
【共引文献】
中国期刊全文数据库 前10条
1 胡锡衡;;正向最大匹配法在中文分词技术中的应用[J];鞍山师范学院学报;2008年02期
2 周宏宇;张政;;中文分词技术综述[J];安阳师范学院学报;2010年02期
3 赵晓凡;胡顺义;;基于正向最大匹配的汉语分词[J];安阳师范学院学报;2010年05期
4 龚汉明,周长胜;汉语分词技术综述[J];北京机械工业学院学报;2004年03期
5 李国和;刘光胜;吴卫江;孙红军;唐先明;韩宝东;;基于最大匹配和歧义检测的中文分词粗分方法[J];北京信息科技大学学报(自然科学版);2010年S2期
6 易军凯;颜婷婷;;垃圾邮件的改进贝叶斯过滤算法[J];北京化工大学学报(自然科学版);2008年06期
7 文庭孝;汉语自动分词研究进展[J];图书与情报;2005年05期
8 田占霄;韩宪忠;王克俭;;一种改进的长词优先逆向最大匹配分词消歧策略[J];河北农业大学学报;2009年04期
9 赵春红;高希龙;王柠;赵威;刘国华;;一种应用分治策略的中文分词方法[J];燕山大学学报;2009年05期
10 吴登堂;关于字母词的思考——兼谈中文信息处理对字母词自动切分的构想[J];丹东师专学报;2003年02期
中国重要会议论文全文数据库 前8条
1 靳光瑾;郭曙纶;肖航;章云帆;;语料库加工中的规范问题——谈《信息处理用现代汉语词类标记集规范》[A];语言文字应用研究论文集(Ⅱ)[C];2004年
2 陶建华;蔡莲红;赵晟;;汉语语音合成中的文本分析和韵律处理[A];辉煌二十年——中国中文信息学会二十周年学术会议论文集[C];2001年
3 黄昌宁;高剑峰;李沐;;对自动分词的反思[A];语言计算与基于内容的文本处理——全国第七届计算语言学联合学术会议论文集[C];2003年
4 杨尔弘;方莹;乔羽;;汉语自动分词和词性标注评测[A];第二届全国学生计算语言学研讨会论文集[C];2004年
5 林小俊;田浩;王馨浩;杜蕴璇;许敏;吴玺宏;迟惠生;;语言模型训练语料处理方法及解码词典的设计[A];第八届全国人机语音通讯学术会议论文集[C];2005年
6 李寿山;黄居仁;;基于词边界分类的中文分词方法[A];中国计算机语言学研究前沿进展(2007-2009)[C];2009年
7 陈丕海;冯建华;邢春晓;郑晓慧;;SiteSearch的关键技术分析及汉化设计[A];第十八届全国数据库学术会议论文集(研究报告篇)[C];2001年
8 赵伟;路永刚;吴琼;;一种新的基于BMM和RMM分词方法的研究与实现[A];第二十三届中国数据库学术会议论文集(技术报告篇)[C];2006年
中国博士学位论文全文数据库 前10条
1 王迈;语言形式化原理[D];上海外国语大学;2011年
2 张蕾;概念结构及其应用[D];西北工业大学;2001年
3 张伟;基于WWW的聚类引擎研究[D];重庆大学;2003年
4 隋岩;基于“动态流通语料库”的“有效字符串”提取研究[D];北京语言大学;2004年
5 王建会;中文信息处理中若干关键技术的研究[D];复旦大学;2004年
6 李良炎;基于词联接的自然语言处理技术及其应用研究[D];重庆大学;2004年
7 乔林;基于多关键词检索的企业竞争情报搜集方法研究[D];中国科学技术大学;2006年
8 刘涛;现代信息检索中的文本分类及图像恢复研究[D];北京邮电大学;2006年
9 孟小峰;中文数据库自然语言查询处理研究[D];中国科学院研究生院(计算技术研究所);1999年
10 宗成庆;音字转换与句子规范化处理研究[D];中国科学院研究生院(计算技术研究所);1998年
中国硕士学位论文全文数据库 前10条
1 徐财应;基于Lucene的搜索引擎技术的研究与改进[D];长春理工大学;2010年
2 红霞;基于层叠条件随机场的中文机构名识别的研究[D];大连理工大学;2010年
3 刘辉;基于KNN算法的中文Web文本分类技术研究[D];辽宁工程技术大学;2010年
4 黄辉;基于LSI和SVC的网页文本分类算法研究[D];长沙理工大学;2010年
5 冯晶晶;面向软件测试领域的自动问答系统[D];河南理工大学;2010年
6 郭瞳康;基于词典的中文分词技术研究[D];哈尔滨理工大学;2010年
7 李丹;基于规则与统计的汉语自动分词研究[D];长春工业大学;2010年
8 杨舟;基于自然语言处理的专利文档自动语义标注方法研究[D];浙江大学;2011年
9 梁桢;基于尾字词典的逆向回溯中文分词技术研究[D];武汉工业学院;2010年
10 蔡蕊;一种新的搜索引擎分词词典的研究[D];山东大学;2010年
【同被引文献】
中国期刊全文数据库 前10条
1 周宏宇;张政;;中文分词技术综述[J];安阳师范学院学报;2010年02期
2 张德鑫;“水至清则无鱼”——我的新生词语规范观[J];北京大学学报(哲学社会科学版);2000年05期
3 汪涛,樊孝忠,顾益军,刘林;基于概念分析的主题爬虫设计[J];北京理工大学学报;2004年10期
4 张锋,樊孝忠;基于最大熵模型的交集型切分歧义消解[J];北京理工大学学报;2005年07期
5 文庭孝;汉语自动分词研究进展[J];图书与情报;2005年05期
6 周蕾;;基于碎片分词的未登录词识别方法[J];常熟理工学院学报;2007年02期
7 孙茂松,邹嘉彦;汉语自动分词研究评述[J];当代语言学;2001年01期
8 徐金雷;杨晓江;;基础教育资源搜索引擎的排序算法研究[J];电化教育研究;2007年02期
9 曾海军;曾德考;范新民;;从国外远程教育看中国高校网络教育的发展[J];电化教育研究;2008年04期
10 张利;张立勇;张晓淼;耿铁锁;岳宗阁;;基于改进BP网络的中文歧义字段分词方法研究[J];大连理工大学学报;2007年01期
中国重要会议论文全文数据库 前3条
1 颜伟;荀恩东;;基于WordNet的英语词语相似度计算[A];第二届全国学生计算语言学研讨会论文集[C];2004年
2 钟涛;陈群秀;;基于层式有限状态自动机的灾难事件抽取系统[A];第三届全国信息检索与内容安全学术会议论文集[C];2007年
3 苗家;马军;陈竹敏;;一种基于HITS算法的blog文摘方法[A];第六届全国信息检索学术会议论文集[C];2010年
中国博士学位论文全文数据库 前4条
1 杨尔弘;突发事件信息提取研究[D];北京语言大学;2005年
2 姜吉发;自由文本的信息抽取模式获取的研究[D];中国科学院研究生院(计算技术研究所);2004年
3 胡燕;基于Web信息抽取的专业知识获取方法研究[D];武汉理工大学;2007年
4 谭红叶;中文事件抽取关键技术研究[D];哈尔滨工业大学;2008年
中国硕士学位论文全文数据库 前10条
1 吴平博;基于事件框架的主题相关文档智能检索的初步研究[D];清华大学;2004年
2 白广奇;网页内容过滤的关键技术研究及实现[D];山东大学;2005年
3 温锐;中文命名实体识别及其关系抽取研究[D];苏州大学;2005年
4 陈杰;主题搜索引擎中网络蜘蛛搜索策略研究[D];浙江大学;2006年
5 黄立冬;基础教育资源搜索引擎中的中文分词技术研究[D];南京师范大学;2006年
6 刘玮玮;搜索引擎中主题爬虫的研究与实现[D];南京理工大学;2006年
7 吴海明;基于Lucene的搜索引擎技术的研究与改进[D];暨南大学;2006年
8 张亚鑫;基于CRM理念的银行呼叫中心系统的设计与应用[D];北京交通大学;2007年
9 窦亚君;Luder基于内容的文档搜索引擎[D];天津工业大学;2007年
10 王东亚;校园网络行为分析的研究[D];北京交通大学;2007年
【二级引证文献】
中国期刊全文数据库 前9条
1 毕洪宇;;利用NoSQL构建高性能全文检索系统[J];计算机与现代化;2012年03期
2 羊毛卓玛;高定国;;藏文自动分词中未登录词处理方法研究[J];计算机工程;2012年17期
3 逯万辉;马建霞;赵迎光;;爆发词识别与主题探测技术研究综述[J];情报理论与实践;2012年06期
4 蒋建洪;赵嵩正;罗玫;;词典与统计方法结合的中文分词模型研究及应用[J];计算机工程与设计;2012年01期
5 付强;;基于Lucene的高校图书垂直搜索引擎的研究与实现[J];太原师范学院学报(自然科学版);2011年04期
6 唐籍涛;李飞;郭昌松;;网络舆情监控中新词识别问题的研究[J];计算机技术与发展;2012年01期
7 万莛;;最大匹配算法研究[J];微型机与应用;2012年08期
8 胡阿明;王卫东;;中文分词歧义识别算法的优化[J];现代电子技术;2012年08期
9 段宇锋;鞠菲;;基于N-Gram的专业领域中文新词识别研究[J];现代图书情报技术;2012年02期
中国硕士学位论文全文数据库 前10条
1 刘飞荣;SOM算法的改进及其在中文文本聚类的应用[D];南昌大学;2010年
2 胡少荣;一种舆情信息预处理平台的研究与实现[D];北京交通大学;2010年
3 吕靖;互联网搜索词分类关键技术研究[D];浙江大学;2011年
4 沙有闯;基于Web文本挖掘的网络口碑监测系统研究[D];安徽大学;2010年
5 王慧;最大熵模型的语义句法分析在问答系统中的应用研究[D];大连交通大学;2010年
6 戚学磊;基于Lucene的站内搜索引擎技术的研究与应用[D];太原理工大学;2011年
7 石安磊;基于文本相似度评分的中医案例分析系统研究与实现[D];西北大学;2011年
8 林冬盛;中文分词算法的研究与实现[D];西北大学;2011年
9 刘亚东;分布式医学搜索引擎的研究与实现[D];北京邮电大学;2011年
10 冯鸥鹏;垃圾短信过滤中字特征与词特征对过滤效果的比较研究[D];北京邮电大学;2011年
【二级参考文献】
中国期刊全文数据库 前10条
1 孙茂松,邹嘉彦;汉语自动分词研究评述[J];当代语言学;2001年01期
2 王显芳,杜利民;利用覆盖歧义检测法和统计语言模型进行汉语自动分词[J];电子与信息学报;2003年09期
3 刘挺,吴岩,王开铸;最大概率分词问题及其解法[J];哈尔滨工业大学学报;1998年06期
4 林亚平,李彦,童调生,尹锋;汉语自动分词中的神经网络技术研究[J];湖南大学学报(自然科学版);1997年06期
5 李向阳,张亚非;一种Hash高速分词算法[J];解放军理工大学学报(自然科学版);2004年02期
6 陈桂林,王永成,韩客松,王刚;一种高效的中文电子词表数据结构[J];计算机研究与发展;2000年01期
7 陈桂林,王永成,韩客松,王刚;一种改进的快速分词算法[J];计算机研究与发展;2000年04期
8 孙茂松,黄昌宁,邹嘉彦,陆方,沈达阳;利用汉字二元语法关系解决汉语自动分词中的交集型歧义[J];计算机研究与发展;1997年05期
9 张长利,赫枫龄,左万利;一种基于后缀数组的无词典分词方法[J];吉林大学学报(理学版);2004年04期
10 陈其晖,应志伟,柴佩琪;基于歧义二叉树的汉语分词方法[J];计算机辅助工程;1999年04期
【相似文献】
中国期刊全文数据库 前10条
1 卢玉敏;;未登录名词短语识别现状初探[J];广西大学学报(自然科学版);2007年S1期
2 姚兴山;;基于Hash算法的中文分词研究[J];现代图书情报技术;2008年03期
3 姚兴山;;基于哈希算法的中文分词算法的改进[J];图书情报工作;2008年06期
4 孟维娟;;自然语言处理中的歧义[J];上海电机学院学报;2006年S1期
5 才智杰;才让卓玛;;藏文自动分词系统的设计[J];计算机工程与科学;2011年05期
6 周程远;朱敏;杨云;;基于词典的中文分词算法研究[J];计算机与数字工程;2009年03期
7 才智杰;;班智达藏文自动分词系统的设计与实现[J];青海师范大学民族师范学院学报;2010年02期
8 金在全;赵照;杜秀全;张东;;一种改进的增字最大匹配算法[J];科学技术与工程;2007年18期
9 林浩;韩冰;杨乐华;;一种基于改进最大匹配快速中文分词算法[J];科技创新导报;2009年09期
10 祁文青;;一种改进的中文分词算法[J];黄石理工学院学报;2007年04期
中国重要会议论文全文数据库 前10条
1 杜超华;沈威;姚双云;;基于复句语料库的分词系统的研究[A];第三届学生计算语言学研讨会论文集[C];2006年
2 陈晓;靳光瑾;黄昌宁;;基于字的分词方法的实验研究[A];内容计算的研究与应用前沿——第九届全国计算语言学学术会议论文集[C];2007年
3 ;中国中文信息学会交流材料[A];2011年网络学术交流研讨会交流材料[C];2011年
4 陈晓;;中文文本自动分词研究述要[A];第四届全国语言文字应用学术研讨会论文集[C];2005年
5 孙玉芳;;中文信息处理与国家信息化建设[A];面向21世纪的科技进步与社会经济发展(上册)[C];1999年
6 陈文亮;朱靖波;吕学强;姚天顺;;词性标注规则的获取和优化[A];第一届学生计算语言学研讨会论文集[C];2002年
7 李斌;陈小荷;;面向中文陌生文本的人机交互式分词方法[A];第三届学生计算语言学研讨会论文集[C];2006年
8 ;前言[A];中文信息处理前沿进展——中国中文信息学会二十五周年学术会议论文集[C];2006年
9 朱鉴;张建;李淼;强静;杨攀;;面向民族语言信息处理的汉语分词方法[A];民族语言文字信息技术研究——第十一届全国民族语言文字信息学术研讨会论文集[C];2007年
10 刘春荣;;我国当务之急是解决中文书写方式的根本变革[A];中国中文信息学会汉字编码专业委员会第九届年会暨学术研讨会论文集[C];2011年
中国重要报纸全文数据库 前10条
1 记者 梁捷;我国中文信息处理技术从实验室走向全面应用[N];光明日报;2009年
2 姚双云 华中师范大学语言与语言教育研究中心;虚词知识库:中文信息处理的基石[N];中国社会科学报;2011年
3 倪光南;活力重现的中文信息处理[N];计算机世界;2001年
4 齐悦;速记界泰斗唐亚伟 获中文信息处理领域最高科技奖[N];中国质量报;2006年
5 张波 龙雨;中文信息处理国际学术会议在武汉大学召开[N];中国社会科学院院报;2007年
6 记者 段佳;中文信息处理技术加速前行[N];大众科技报;2009年
7 记者 韩晓玲通讯员 张波 龙雨;海内外专家聚焦中文信息处理[N];湖北日报;2007年
8 本报记者 毛国兵 通讯员 岚宇;亚伟速录:实现中文信息处理产业化的自主品牌[N];中国贸易报;2008年
9 本报记者 关逸民;中文速录成为自主核心技术产业[N];中国信息报;2006年
10 胡唯元;文字编码新标准:不再为“名”所累[N];科技日报;2006年
中国博士学位论文全文数据库 前10条
1 宋春阳;面向信息处理的现代汉语“名+名”逻辑语义研究[D];上海师范大学;2003年
2 刘涛;现代信息检索中的文本分类及图像恢复研究[D];北京邮电大学;2006年
3 由丽萍;构建现代汉语框架语义知识库技术研究[D];上海师范大学;2006年
4 周卫华;面向中文信息处理的现代汉语动宾语义搭配研究[D];华中师范大学;2007年
5 詹卫东;面向中文信息处理的现代汉语短语结构规则研究[D];北京大学;1999年
6 陈博;WEB文本情感分类中关键问题的研究[D];北京邮电大学;2008年
7 李琼;汉语复句书读前后语言片段的非分句识别[D];华中师范大学;2008年
8 黄魏;植物营养诊断自动应答网络专家系统研究[D];华中农业大学;2007年
9 吕艳辉;基于语料库的现代汉语手部动词研究[D];山东大学;2008年
10 陈慧;基于DCC动态流通语料库的中文组织名考察与研究[D];北京语言大学;2008年
中国硕士学位论文全文数据库 前10条
1 曹林峰;中文文字差错率统计软件的实现[D];西安电子科技大学;2007年
2 任红梅;分词连写的中文信息处理[D];中国石油大学;2007年
3 秦健;N-gram技术在中文词法分析中的应用研究[D];中国海洋大学;2009年
4 陶东成;基于Linux和XIM协议的中文输入法服务器的实现及其应用[D];苏州大学;2004年
5 罗忠毅;数字化中医古籍的理想模式及其相关问题研究[D];成都中医药大学;2005年
6 王敏;基于改进的隐马尔科夫模型汉语词性标注[D];山西大学;2007年
7 党兰学;汉字语法语义智能输入法总体设计与部分实现[D];河南大学;2006年
8 傅成宏;现代汉语兼语结构的自动识别[D];南京师范大学;2007年
9 白晓梅;校园网中文搜索引掣系统的设计与实现[D];吉林大学;2006年
10 刘桂梅;周有光语文改革思想研究[D];山东师范大学;2005年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62791813
  • 010-62985026