收藏本站
《电子与信息学报》 2001年11期
收藏 | 投稿 | 手机打开
二维码
手机客户端打开本文

一种基于N-gram模型和机器学习的汉语分词算法

吴应良  韦岗  李海洲  
【摘要】:汉语的自动分词,是计算机中文信息处理领域中一个基础而困难的课题。该文提出了一种将汉语文本句子切分成词的新方法,这种方法以N-gram模型为基础,并结合有效的Viterbi搜索算法来实现汉语句子的切词。由于采用了基于机器学习的自组词算法,无需人工编制领域词典。该文还讨论了评价分词算法的两个定量指标,即查准率和查全率的定义,在此基础上,用封闭语料库和开放语料库对该文提出的汉语分词模型进行了实验测试,表明该模型和算法具有较高的查准率和查全率。

手机知网App
【引证文献】
中国期刊全文数据库 前8条
1 葛宇;梁静;陈晓敏;;搜索引擎系统中热点问题的探讨[J];成都电子机械高等专科学校学报;2009年04期
2 汤国锋;徐振伟;张华熊;;基于Lucene的中文分词技术研究[J];电脑编程技巧与维护;2012年10期
3 瞿锋;陈纪元;;汉语自动分词算法综述[J];福建电脑;2006年04期
4 卢玉敏;;未登录名词短语识别现状初探[J];广西大学学报(自然科学版);2007年S1期
5 孙铁利;刘延吉;;中文分词技术的研究现状与困难[J];信息技术;2009年07期
6 吴春颖;王士同;;基于二元语法的N-最大概率中文粗分模型[J];计算机应用;2007年12期
7 宣照国;党延忠;;无词典中文特征词自动抽取的桥接模式滤除算法[J];计算机应用研究;2007年07期
8 开金宇;栗青生;;利用N-元模型构建甲骨卜辞词元库的研究[J];计算机应用与软件;2010年09期
中国博士学位论文全文数据库 前1条
1 宣照国;文本挖掘算法及其在知识管理中的应用研究[D];大连理工大学;2008年
中国硕士学位论文全文数据库 前10条
1 孔胜;文本资源的知识抽取研究[D];大连理工大学;2010年
2 林渌;基于新闻主题模型的热点工作挖掘系统[D];浙江大学;2011年
3 曹亚辉;非结构文本最佳近似匹配系统的研究与实现[D];东华大学;2011年
4 戴依若;基于内容的中文流行病新闻主题分类[D];北京邮电大学;2011年
5 魏博诚;中文分词交集型歧义处理研究[D];安徽大学;2011年
6 刘丛山;基于Hadoop的文本分类研究[D];上海交通大学;2012年
7 方明;基于Web的评论文本倾向性分析技术研究[D];山东师范大学;2012年
8 罗小虎;基于蚁群算法的汉语自动分词的研究与实现[D];苏州大学;2004年
9 王源媛;中文未登录名词短语的识别方法研究[D];重庆大学;2004年
10 马哲;垃圾邮件过滤系统的研究与实现[D];浙江大学;2005年
【参考文献】
中国期刊全文数据库 前2条
1 赵以宝,孙圣和;一种基于单字统计二元文法的自组词音字转换算法[J];电子学报;1998年10期
2 梁南元;汉语计算机自动分词知识[J];中文信息学报;1990年02期
【共引文献】
中国期刊全文数据库 前10条
1 章森;刘磊;刁麓弘;;基于混合语言模型的中文智能输入技术[J];北京工业大学学报;2007年09期
2 文庭孝;汉语自动分词研究进展[J];图书与情报;2005年05期
3 孙茂松,邹嘉彦;汉语自动分词研究评述[J];当代语言学;2001年01期
4 马建华;;面向职业教育的主题蜘蛛的设计与实现[J];电脑知识与技术;2008年27期
5 刘利东;信息源中专业词语的提取方法[J];德州学院学报(自然科学版);2002年02期
6 刘利东;基于组合度的汉语分词决策算法研究[J];德州学院学报(自然科学版);2003年02期
7 刘晓英;汉语自动分词研究的发展趋势[J];高校图书馆工作;2005年04期
8 郑延斌;书面汉语自动分词及歧义分析[J];河南师范大学学报(自然科学版);1997年04期
9 马光志,李专;基于特征词的自动分词研究[J];华中科技大学学报(自然科学版);2003年03期
10 陈桂林,王永成,韩客松,王刚;一种改进的快速分词算法[J];计算机研究与发展;2000年04期
中国博士学位论文全文数据库 前3条
1 贺前华;汉语自动分词及机器翻译研究[D];华南理工大学;1993年
2 吴应良;网络计算中的智能信息处理方法研究[D];华南理工大学;2000年
3 徐望;连续语音识别的稳健性技术研究[D];解放军信息工程大学;2006年
中国硕士学位论文全文数据库 前10条
1 蔡蕊;一种新的搜索引擎分词词典的研究[D];山东大学;2010年
2 陈磊;用例图到顺序图转换的研究[D];西安电子科技大学;2009年
3 刘卫秋;专利信息检索系统的研究与实现[D];中南大学;2010年
4 谭冬晨;主观题评分算法模型研究[D];电子科技大学;2011年
5 刘冰凌;基于正向最大匹配算法的优化算法ImpFMMseg的实现[D];中南民族大学;2010年
6 刘峰;基于Android的语句级智能汉字输入法研究[D];哈尔滨工业大学;2010年
7 赵倩倩;维吾尔语信息检索[D];天津大学;2012年
8 许林杰;中文文本分词研究[D];山东师范大学;2003年
9 程传鹏;基于分类的智能信息检索研究与实现[D];云南师范大学;2005年
10 赵艳芳;面向Internet的个性化信息服务的研究[D];云南师范大学;2005年
【同被引文献】
中国期刊全文数据库 前10条
1 胡凌云;胡桂兰;徐勇;李龙澍;;基于Web的新闻文本分类技术的研究[J];安徽大学学报(自然科学版);2010年06期
2 王华;江启成;胡学钢;;数据挖掘在医学上的应用[J];安徽医药;2008年08期
3 丁丰,董娜,林碧琴,袁保宗;自然语言处理系统中自动分词的研究[J];北方交通大学学报;1999年06期
4 税仪冬;瞿有利;黄厚宽;;周期分类和Single-Pass聚类相结合的话题识别与跟踪方法[J];北京交通大学学报;2009年05期
5 焦健;瞿有利;;知网的话题更新与跟踪算法研究[J];北京交通大学学报;2009年05期
6 曹德和;;中文分词连写的问题与对策[J];北华大学学报(社会科学版);2006年01期
7 王卫兵;;中文分词连写可行性考察[J];北华大学学报(社会科学版);2006年01期
8 冯少卿;都云程;;网页结构模板生成新方法研究[J];北京机械工业学院学报;2007年03期
9 顾益军,樊孝忠,王建华,汪涛,黄维金;中文停用词表的自动选取[J];北京理工大学学报;2005年04期
10 许云,樊孝忠,张锋;基于知网的语义相关度计算[J];北京理工大学学报;2005年05期
中国重要会议论文全文数据库 前2条
1 李思;张浩;徐蔚然;郭军;;基于合并模型的中文文本情感分析[A];第五届全国信息检索学术会议论文集[C];2009年
2 张小琴;蒋秀凤;;基于句子级的领域倾向词表构建[A];第五届全国青年计算语言学研讨会论文集[C];2010年
中国博士学位论文全文数据库 前7条
1 应晓敏;面向Internet个性化服务的用户建模技术研究[D];中国人民解放军国防科学技术大学;2003年
2 杨梅;现代汉语合成词构词研究[D];南京师范大学;2006年
3 王斌;汉英双语语料库自动对齐研究[D];中国科学院研究生院(计算技术研究所);1999年
4 尹洪波;否定词与副词共现的句法语义研究[D];中国社会科学院研究生院;2008年
5 王菁华;文本中知识的获取[D];北京邮电大学;2008年
6 郝秀兰;文本分类技术与应用研究[D];复旦大学;2008年
7 李沛刚;基于功构模式的产品概念设计理论和方法研究[D];山东大学;2010年
中国硕士学位论文全文数据库 前10条
1 王省;基地统计和规则的中文姓名识别系统的研制[D];大连理工大学;2000年
2 李朝阳;经济文献数据库计算机标引研究[D];南京农业大学;2000年
3 郝雷红;现代汉语否定副词研究[D];首都师范大学;2003年
4 白慧;基于产品设计领域的名词短语语义分析[D];西安电子科技大学;2004年
5 刘冬明;汉英双语平行语料库中对齐方法的研究[D];山西大学;2004年
6 朱珣;中文自动分词系统的研究[D];华中师范大学;2004年
7 罗小虎;基于蚁群算法的汉语自动分词的研究与实现[D];苏州大学;2004年
8 王源媛;中文未登录名词短语的识别方法研究[D];重庆大学;2004年
9 张小林;机械产品设计领域的自然语言理解中名词性短语的语义分析[D];西安电子科技大学;2005年
10 王悦;Linux下Webmail反垃圾邮件模型的研究与实现[D];沈阳工业大学;2005年
【二级引证文献】
中国期刊全文数据库 前10条
1 程卫华;尤晋元;;基于内容过滤的反垃圾邮件系统的设计与实现[J];安徽大学学报(自然科学版);2007年03期
2 董妍汝;;中文分词技术在搜索引擎中的应用[J];办公自动化;2010年04期
3 宋涛;施水才;房祥;吕学强;;基于改进的潜在语义分析的文本聚类[J];北京信息科技大学学报(自然科学版);2012年03期
4 何友全;徐小乐;徐澄;栾红玉;唐华姣;;搜索引擎用户接口设计[J];重庆理工大学学报(自然科学版);2010年09期
5 梁铭;;基于英汉平行语料库术语词典的自动抽取[J];电脑知识与技术;2009年19期
6 马婷婷;;中文自动分词系统概述[J];电脑知识与技术;2010年33期
7 王成平;;彝文信息处理自动分词技术的研究现状与难点分析[J];电脑知识与技术;2012年04期
8 熊回香;;试论信息管理与信息系统专业《数据结构》课程的教学[J];高等函授学报(自然科学版);2007年04期
9 于张红;蹇玉清;张海涛;王建猛;王纲;;课程词典系统的设计[J];河北科技师范学院学报;2007年03期
10 通拉嘎;赵小兵;;汉语分词规范对《信息处理用现代蒙古语切分规范》建立的启示[J];广西社会科学;2011年10期
中国重要会议论文全文数据库 前2条
1 修驰;宋柔;;基于“大词”实例的中文分词研究[A];中国计算语言学研究前沿进展(2009-2011)[C];2011年
2 李寿山;黄居仁;;基于词边界分类的中文分词方法[A];中国计算机语言学研究前沿进展(2007-2009)[C];2009年
中国博士学位论文全文数据库 前3条
1 魏鲁原;基于多蚁群算法的电力变压器故障定位方法研究[D];中国矿业大学;2011年
2 李昊旻;电子病历的标准化结构化方法研究及实践[D];浙江大学;2007年
3 胡东滨;决策问题管理系统及其开发组件研究[D];中南大学;2008年
中国硕士学位论文全文数据库 前10条
1 张燕丽;基于Winnow算法和CAPTCHA的垃圾短信过滤研究[D];郑州大学;2010年
2 孔胜;文本资源的知识抽取研究[D];大连理工大学;2010年
3 郭瞳康;基于词典的中文分词技术研究[D];哈尔滨理工大学;2010年
4 李丹;基于规则与统计的汉语自动分词研究[D];长春工业大学;2010年
5 梁桢;基于尾字词典的逆向回溯中文分词技术研究[D];武汉工业学院;2010年
6 葛世海;基于J2EE的站群管理平台的设计与实现[D];电子科技大学;2010年
7 徐丽平;基于内容挖掘的中文垃圾邮件过滤技术研究[D];东北财经大学;2010年
8 陶小波;电子就业文本挖掘系统关键技术研究与应用[D];浙江工商大学;2011年
9 王慧;最大熵模型的语义句法分析在问答系统中的应用研究[D];大连交通大学;2010年
10 曹亚辉;非结构文本最佳近似匹配系统的研究与实现[D];东华大学;2011年
【二级参考文献】
中国期刊全文数据库 前4条
1 梁南元;书面汉语的自动分词与一个自动分词系统—CDWS[J];北京航空学院学报;1984年04期
2 梁南元;书面汉语自动分词综述[J];计算机应用与软件;1987年03期
3 刘源,梁南元;汉语处理的基础工程——现代汉语词频统计[J];中文信息学报;1986年01期
4 梁南元;书面汉语自动分词系统—CDWS[J];中文信息学报;1987年02期
【相似文献】
中国期刊全文数据库 前10条
1 孙建军,陈肇雄,薛选民,郭喜林,侯敏;基于多功能逻辑运算分析技术的汉语分词[J];计算机研究与发展;1998年05期
2 张海营;;全二分快速自动分词算法构建[J];现代图书情报技术;2007年04期
3 尹锋;基于神经网络的汉语自动分词系统的设计与分析[J];情报学报;1998年01期
4 王晓龙,王开铸,李仲荣,白小华;最少分词问题及其解法[J];科学通报;1989年13期
5 付国宏,王平,王晓龙;汉语分词和词性标注一体化分析的方法研究[J];计算机应用研究;2001年07期
6 王科,高常波,翟雪峰,罗万伯;汉语分词的主要技术及其应用展望[J];通信技术;2003年06期
7 火善栋;;有限状态机在中文文本分词中的应用[J];现代计算机(专业版);2010年06期
8 沈达阳,孙茂松,黄昌宁;汉语分词系统中的信息集成和最佳路径搜索方法[J];中文信息学报;1997年02期
9 翟伟斌;周振柳;蒋卓明;许榕生;;汉语分词词典设计[J];计算机工程与应用;2007年01期
10 王厚峰;;计算语言学歧义消解研究——兼介绍北京大学计算语言学教育部重点实验室[J];术语标准化与信息技术;2010年03期
中国重要会议论文全文数据库 前10条
1 李月伦;常宝宝;;基于最大间隔马尔可夫网模型的汉语分词方法[A];中国计算机语言学研究前沿进展(2007-2009)[C];2009年
2 徐礼胜;李乃民;王宽全;张冬雨;耿斌;姜晓睿;陈超海;罗贵存;;机器学习在中医计算机诊断识别系统中的应用思考[A];第一届全国中西医结合诊断学术会议论文选集[C];2006年
3 夏诏杰;郭力;李晓霞;;化学主题网络爬虫的研究[A];第十届全国计算(机)化学学术会议论文摘要集[C];2009年
4 谢世朋;胡茂林;;基于局部仿射区域对稀疏纹理分类的研究[A];第一届建立和谐人机环境联合学术会议(HHME2005)论文集[C];2005年
5 张郴;;基于神经网络集成的旅游需求预测模型[A];中国地理学会百年庆典学术论文摘要集[C];2009年
6 吴宪祥;于培松;万旻;倪伟;郭宝龙;;RoboCup中智能体的参数优化和学习[A];马斯特杯2003年中国机器人大赛及研讨会论文集[C];2003年
7 杜晓凤;丁友东;;FloatBag选择性神经网络集成及其在人脸检测中的应用[A];第十二届全国信号处理学术年会(CCSP-2005)论文集[C];2005年
8 杨磊;黎志成;胡斌;;基于人工神经网络的调度规则确定专家系统[A];第七届计算机模拟与信息技术学术会议论文集[C];1999年
9 张燕;张付志;;跨系统个性化服务方法和用户模型研究[A];第三届和谐人机环境联合学术会议(HHME2007)论文集[C];2007年
10 陈时敏;韩心慧;;基于机器学习的网页木马识别方法研究[A];第26次全国计算机安全学术交流会论文集[C];2011年
中国重要报纸全文数据库 前10条
1 黎骊/文 [美] Tom M.Mitchell 著;机器学习与智能化社会[N];中国邮政报;2003年
2 本报记者 余建斌;机器学习与互联网搜索[N];人民日报;2011年
3 记者 何边;网络化激活人工智能[N];计算机世界;2001年
4 本报记者 张晔通讯员 李玮;周志华:永不墨守成规[N];科技日报;2008年
5 何清 史忠植 王伟;搜索引擎的前沿技术[N];计算机世界;2006年
6 傅秋瑛;默默耕耘数十载 自主创新结硕果[N];科技日报;2006年
7 王育昕吴红梅;高水平原创性科技成果大量涌现[N];新华日报;2008年
8 杰逊;微软的第一个搜索技术掌门[N];中国计算机报;2006年
9 冯卫东;科技将这样改变我们的生活[N];科技日报;2008年
10 记者 刘垠;首届中美视觉夏令营开营[N];大众科技报;2009年
中国博士学位论文全文数据库 前10条
1 何斌;基于可拓逻辑的机器学习理论与方法[D];华南理工大学;2005年
2 王国胜;支持向量机的理论与算法研究[D];北京邮电大学;2008年
3 胡崇海;基于图的半监督机器学习[D];浙江大学;2008年
4 刘长安;基于实例归纳的工艺规划方法及集成CAPP系统研究[D];山东大学;2003年
5 李忠伟;支持向量机学习算法研究[D];哈尔滨工程大学;2006年
6 钟志;基于异常行为辨识的智能监控技术研究[D];上海交通大学;2008年
7 易勇;计算机辅助诗词创作中的风格辨析及联语应对研究[D];重庆大学;2005年
8 徐海祥;基于支持向量机方法的图像分割与目标分类[D];华中科技大学;2005年
9 牛晓太;多模式智能谈判支持系统的理论与方法研究[D];武汉大学;2004年
10 赵玉鹏;机器学习的哲学探索[D];大连理工大学;2010年
中国硕士学位论文全文数据库 前10条
1 苏勇;基于理解的汉语分词系统的设计与实现[D];电子科技大学;2011年
2 蒋龙;基于统计的汉语分词在机械产品设计中的应用[D];西安电子科技大学;2012年
3 刘孟旭;基于EP的多分类器表决分类算法[D];郑州大学;2004年
4 向光;基于机器学习和数据挖掘的入侵检测技术研究[D];东北大学;2005年
5 亢华爱;入侵检测系统中基于代价敏感分类算法的研究[D];太原理工大学;2005年
6 张金伟;基于Agent网络答疑系统的设计与实现[D];华东师范大学;2006年
7 王晶;支持向量机及其在癌症诊断中的应用研究[D];东北师范大学;2006年
8 万辉;自主载体语义级环境建模和规划的研究与实现[D];沈阳工业大学;2006年
9 黄际洲;聊天机器人知识库自动抽取算法的研究与实现[D];重庆大学;2006年
10 孟祥山;工作流流程优化技术的应用研究[D];国防科学技术大学;2004年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62791813
  • 010-62985026