收藏本站
《计算机工程与应用》 2010年03期
收藏 | 投稿 | 手机打开
二维码
手机客户端打开本文

汉语文本自动分词算法的研究

何国斌  赵晶璐  
【摘要】:分析了中文分词词典的机制,提出了一种改进的整词分词字典结构,并针对机械分词算法的特点,将其与概率算法相结合,探讨了一种中文自动分词概率算法。采用哈希及二分法对词典进行分词匹配。实验表明,该算法具有较高的分词效率和准确率,对于消去歧义词也有较好的性能。

【引证文献】
中国期刊全文数据库 前5条
1 黄美璇;;基于主题发现的舆情分析系统的设计与实现[J];北京联合大学学报(自然科学版);2012年01期
2 綦科;谢冬青;;基于内容的短信分类系统的设计与实现[J];广州大学学报(自然科学版);2011年05期
3 王惠仙;龙华;;基于改进的正向最大匹配中文分词算法研究[J];贵州大学学报(自然科学版);2011年05期
4 向志华;梁玉英;;自然语言处理技术在网络答疑系统中的应用[J];牡丹江师范学院学报(自然科学版);2012年02期
5 蒋建洪;赵嵩正;罗玫;;词典与统计方法结合的中文分词模型研究及应用[J];计算机工程与设计;2012年01期
中国硕士学位论文全文数据库 前5条
1 蒋祥杰;基于用户情境本体的个性化知识服务研究[D];武汉理工大学;2010年
2 郭志华;基于字符属性的关系数据库零水印算法研究[D];兰州大学;2011年
3 何爱元;基于词典和概率统计的中文分词算法研究[D];辽宁大学;2011年
4 宁再早;两类仿生学算法在文本分类中的应用研究[D];安徽大学;2011年
5 王岩;面向金融领域BBS的话题发现和热度评价[D];哈尔滨工业大学;2010年
【参考文献】
中国期刊全文数据库 前6条
1 文庭孝;汉语自动分词研究进展[J];图书与情报;2005年05期
2 陈桂林,王永成,韩客松,王刚;一种改进的快速分词算法[J];计算机研究与发展;2000年04期
3 李荣陆,王建会,陈晓云,陶晓鹏,胡运发;使用最大熵模型进行中文文本分类[J];计算机研究与发展;2005年01期
4 翟伟斌;周振柳;蒋卓明;许榕生;;汉语分词词典设计[J];计算机工程与应用;2007年01期
5 曾华琳,李堂秋,史晓东;一种基于提取上下文信息的分词算法[J];计算机应用;2005年09期
6 熊回香;夏立新;;基于词索引的中文全文检索关键技术及其发展方向[J];中国图书馆学报;2007年04期
【共引文献】
中国期刊全文数据库 前10条
1 文庭孝;汉语自动分词研究进展[J];图书与情报;2005年05期
2 冯哲;孙吉贵;张长胜;王岩;;汉语语音合成的研究进展[J];吉林大学学报(信息科学版);2007年02期
3 王琦;;自动分类技术研究[J];河南财政税务高等专科学校学报;2008年04期
4 刘春辉;金顺福;刘国华;李颖;;基于优化最大匹配与统计结合的汉语分词方法[J];燕山大学学报;2009年02期
5 赵春红;高希龙;王柠;赵威;刘国华;;一种应用分治策略的中文分词方法[J];燕山大学学报;2009年05期
6 高洁羽,吕强,杨季文,钱培德;自动分词在输入法测试系统中的应用[J];电化教育研究;2003年02期
7 于江德;李学钰;樊孝忠;庞文博;;最大熵模型的事件分类[J];电子科技大学学报;2010年04期
8 廖一星;潘雪增;;文本分类中基于逆云模型的特征选择方法[J];大连海事大学学报;2011年04期
9 冯素琴;陈惠明;;利用上下文信息解决汉语组合型歧义[J];电脑开发与应用;2007年01期
10 高峰;张永奎;;基于最大熵模型的不良文本识别[J];电脑开发与应用;2009年01期
中国重要会议论文全文数据库 前9条
1 朱晓丹;刁倩;周富秋;;汉语词语的两字hash算法[A];自然语言理解与机器翻译——全国第六届计算语言学联合学术会议论文集[C];2001年
2 杨超;李仁发;蒋斌;;一种高效的汉语自动分词词典机制[A];NCIRCS2004第一届全国信息检索与内容安全学术会议论文集[C];2004年
3 谷波;刘开瑛;;决策树模型和最大熵模型在文本分类中的比较研究[A];全国第八届计算语言学联合学术会议(JSCL-2005)论文集[C];2005年
4 李军辉;朱巧明;李培峰;;一个基于最大熵模型的文本分类方法[A];第二届全国信息检索与内容安全学术会议(NCIRCS-2005)论文集[C];2005年
5 王素格;张武;李德玉;杨军玲;彭其伟;;基于最大熵模型的汉语动词与动词搭配识别[A];中文信息处理前沿进展——中国中文信息学会二十五周年学术会议论文集[C];2006年
6 张玮;孙乐;冯元勇;吕元华;;一种结合分类模型的中文输入法[A];中文信息处理前沿进展——中国中文信息学会二十五周年学术会议论文集[C];2006年
7 田生伟;吐尔根·依布拉音;禹龙;买合木提·木合买提;艾山·吾买尔;;EBMT中加权的维吾尔单词哈希表构造算法[A];第四届全国信息检索与内容安全学术会议论文集(上)[C];2008年
8 黄云平;孙乐;李文波;;基于上下文图模型文本表示的文本分类研究[A];第四届全国信息检索与内容安全学术会议论文集(上)[C];2008年
9 李月伦;李湘;常宝宝;袁毓林;;一种基于认知情景框架的文本分类方法[A];第五届全国青年计算语言学研讨会论文集[C];2010年
中国博士学位论文全文数据库 前10条
1 张翔;文本挖掘技术研究及其在综合风险信息网络中的应用[D];西北大学;2011年
2 祝翠玲;基于类别结构的文本层次分类方法研究[D];山东大学;2011年
3 钱伟中;基于判别式模型的蛋白质互作用文本挖掘技术研究[D];电子科技大学;2011年
4 代劲;云模型在文本挖掘应用中的关键问题研究[D];重庆大学;2011年
5 李智星;用于文本分类的简明语义分析技术研究[D];重庆大学;2011年
6 王迈;语言形式化原理[D];上海外国语大学;2011年
7 孟静;光学层析图像的重建技术研究[D];苏州大学;2006年
8 刘少辉;知识发现中粗糙集理论的研究[D];中国科学院研究生院(计算技术研究所);2003年
9 古平;基于贝叶斯模型的文档分类及相关技术研究[D];重庆大学;2006年
10 王树梅;信息检索相关技术研究[D];南京理工大学;2007年
中国硕士学位论文全文数据库 前10条
1 赵群;极小化标注的音频分类和句子切分的研究[D];中国海洋大学;2010年
2 李丹;基于规则与统计的汉语自动分词研究[D];长春工业大学;2010年
3 王雅菲;文本分类中特征降维方法的研究[D];长春工业大学;2010年
4 刘飞荣;SOM算法的改进及其在中文文本聚类的应用[D];南昌大学;2010年
5 李海丰;基于Lucene的企业文档搜索引擎研究与应用[D];中南林业科技大学;2009年
6 吴惠雄;基于支持向量机与聚类算法的中文文本分类研究[D];中南林业科技大学;2009年
7 张盛蕾;基于Java的浙江纺织服装学院校园网搜索引擎[D];电子科技大学;2010年
8 刘智慧;基于搜索引擎的自动问答系统[D];西安电子科技大学;2010年
9 王荔;统计全切分中文分词系统的研究与实现[D];西安电子科技大学;2009年
10 戴支荣;基于Lucene的面向主题信息搜索系统的关键技术分析及应用[D];武汉理工大学;2011年
【同被引文献】
中国期刊全文数据库 前10条
1 胡锡衡;;正向最大匹配法在中文分词技术中的应用[J];鞍山师范学院学报;2008年02期
2 张德鑫;“水至清则无鱼”——我的新生词语规范观[J];北京大学学报(哲学社会科学版);2000年05期
3 邓志鸿,唐世渭,张铭,杨冬青,陈捷;Ontology研究综述[J];北京大学学报(自然科学版);2002年05期
4 杨震;段立娟;赖英旭;;基于字符串相似性聚类的网络短文本舆情热点发现技术[J];北京工业大学学报;2010年05期
5 李钝;曹元大;万月亮;;Internet中的新词识别[J];北京邮电大学学报;2008年01期
6 于洪波;;中文分词技术研究[J];东莞理工学院学报;2010年05期
7 龙树全;赵正文;唐华;;中文分词算法概述[J];电脑知识与技术;2009年10期
8 黄文良;陈纯;罗云彬;;一种高效垃圾短信过滤系统的实现[J];电信科学;2008年05期
9 温泉,孙锬锋,王树勋;零水印的概念与应用[J];电子学报;2003年02期
10 牛夏牧,赵亮,黄文军,张慧;利用数字水印技术实现数据库的版权保护[J];电子学报;2003年S1期
中国博士学位论文全文数据库 前2条
1 肖镜辉;非时齐语言建模技术研究及实践[D];哈尔滨工业大学;2007年
2 蒋良孝;朴素贝叶斯分类器及其改进算法研究[D];中国地质大学;2009年
中国硕士学位论文全文数据库 前10条
1 孙丽华;中文文本自动分类的研究[D];哈尔滨工程大学;2002年
2 杨雪;支持向量机多类分类方法的研究[D];哈尔滨工程大学;2006年
3 王申;基于内容的垃圾邮件过滤技术的若干研究[D];中国科学院研究生院(计算技术研究所);2005年
4 陈佳;基于XML的Web信息抽取技术的应用研究[D];武汉理工大学;2007年
5 刘婷;中文自动分词法在全文检索中的研究及应用[D];南京航空航天大学;2007年
6 陈宏彦;规则和统计相结合的分词算法[D];太原理工大学;2007年
7 熊小草;文本分类中特征选择的理论分析和算法研究[D];清华大学;2007年
8 杨丽英;基于主题要素的突发事件后续报道追踪方法研究[D];山西大学;2008年
9 吕佳;面向远程教育的智能答疑系统的研究与实现[D];西安电子科技大学;2006年
10 张治国;中文文本分类反馈学习研究[D];西安电子科技大学;2009年
【二级引证文献】
中国硕士学位论文全文数据库 前1条
1 王军;数据归档与信息检索系统的研究与实现[D];太原理工大学;2012年
【二级参考文献】
中国期刊全文数据库 前10条
1 文庭孝;情报检索中汉语语词自动切分研究[J];图书与情报;2001年02期
2 蒋微;中文搜索引擎的自动分词算法[J];电脑开发与应用;2002年06期
3 刘挺,吴岩,王开铸;最大概率分词问题及其解法[J];哈尔滨工业大学学报;1998年06期
4 顾敏,史丽萍,李春玲;自动标引综述[J];黑龙江水专学报;2000年03期
5 马哲,姚敏;一种改进的基于PATRICIA树的汉语自动分词词典机制[J];华南理工大学学报(自然科学版);2004年S1期
6 林绮屏;基于词形的最佳路径分词算法[J];华南师范大学学报(自然科学版);2002年04期
7 郑延斌;书面汉语自动分词及歧义分析[J];河南师范大学学报(自然科学版);1997年04期
8 郭艳华,周昌乐;自然语言理解研究综述[J];杭州电子工业学院学报;2000年01期
9 张国煊,王小华,周必水;快速书面汉语自动分词系统及其算法设计[J];计算机研究与发展;1993年01期
10 陈桂林,王永成,韩客松,王刚;一种高效的中文电子词表数据结构[J];计算机研究与发展;2000年01期
【相似文献】
中国期刊全文数据库 前10条
1 何莘;王琬芜;;自然语言检索中的中文分词技术研究进展及应用[J];情报科学;2008年05期
2 李振星,徐泽平,唐卫清,唐荣锡;全二分最大匹配快速分词算法[J];计算机工程与应用;2002年11期
3 赵志靖,周静,冯锐,齐丙辰;智能人机交互中自动分词技术的实现[J];扬州大学学报(自然科学版);2005年03期
4 高洁羽,吕强,杨季文,钱培德;自动分词在输入法测试系统中的应用[J];电化教育研究;2003年02期
5 付海辰;;基于二字词检测位图表的MM自动分词算法[J];信息与电脑(理论版);2011年03期
6 黄水清;程冲;;基于既定词表的自适应汉语分词技术研究[J];现代图书情报技术;2006年05期
7 付海辰;;网页文本自动分词的有词典方法[J];华章;2011年05期
8 张贤;周娅;;多次Hash自动分词算法[J];微计算机信息;2009年24期
9 黄昌宁;自动分词[J];语言文字应用;1997年01期
10 张李义;李亚子;;基于反序词典的中文逆向最大匹配分词系统设计[J];现代图书情报技术;2006年08期
中国重要会议论文全文数据库 前10条
1 徐艳华;;面向自动分词的三音节新词语构词法研究[A];中国计算语言学研究前沿进展(2009-2011)[C];2011年
2 李小明;王亚莉;易立夫;杨静;孙金城;;自动分词中的单字虚词处理[A];新世纪的现代语音学——第五届全国现代语音学学术会议论文集[C];2001年
3 王兰成;田梅;侯双;;PLS:一种基于信息自动标引的最小推进分词算法及其实现[A];第十九届全国数据库学术会议论文集(技术报告篇)[C];2002年
4 黄昌宁;高剑峰;李沐;;对自动分词的反思[A];语言计算与基于内容的文本处理——全国第七届计算语言学联合学术会议论文集[C];2003年
5 孙承杰;黄昌宁;关毅;;基于标注语料库的组合歧义检测与消解[A];第三届学生计算语言学研讨会论文集[C];2006年
6 林小俊;田浩;王馨浩;杜蕴璇;许敏;吴玺宏;迟惠生;;语言模型训练语料处理方法及解码词典的设计[A];第八届全国人机语音通讯学术会议论文集[C];2005年
7 高璐;陈琪;李永宏;于洪志;;藏语语音合成中本文分析的若干问题研究[A];第九届中国语音学学术会议论文集[C];2010年
8 黄昌宁;林娟;孙承杰;;何谓金本位[A];全国第八届计算语言学联合学术会议(JSCL-2005)论文集[C];2005年
9 郑泽之;;中文自动分词的一些问题[A];内容计算的研究与应用前沿——第九届全国计算语言学学术会议论文集[C];2007年
10 杨尔弘;方莹;乔羽;;汉语自动分词和词性标注评测[A];第二届全国学生计算语言学研讨会论文集[C];2004年
中国重要报纸全文数据库 前10条
1 记者 李志峰;让每一个山里孩子都拥有一本字典[N];重庆日报;2011年
2 台湾作家 杨照;字典与开放社会[N];南方周末;2011年
3 本报评论员;字典虽小意义大[N];中国艺术报;2011年
4 本报记者 李珊珊;“一本字典”凝聚艺术家的爱心[N];中国文化报;2011年
5 本报记者 潘晓凌 实习生 范承刚 本报特约撰稿 雷磊;新话字典[N];南方周末;2010年
6 特派记者 乔晓莹 蒋秋;建议国家将字典纳入免费教科书[N];广西日报;2011年
7 本报记者 李雪钦;爱在四月天[N];中国艺术报;2011年
8 本报记者 曹小武;他们的手上还缺一本字典[N];江西日报;2011年
9 本报记者 王春梅 王新荣;将公益进行到底[N];中国艺术报;2011年
10 记者 曾革楠;字典辞典关乎文化民生[N];中国新闻出版报;2011年
中国博士学位论文全文数据库 前10条
1 易学能;图像的稀疏字典及其应用[D];华中科技大学;2011年
2 黄安民;基于感知字典的稀疏重建算法研究[D];电子科技大学;2011年
3 刘且根;基于增广拉格朗日的字典学习算法及其在医学成像和图像处理中的应用[D];上海交通大学;2012年
4 张京楣;基于统计方法的文本风格分析研究[D];山东大学;2012年
5 张春雷;《经律異相》異文研究[D];南京师范大学;2011年
6 冯敏萱;论汉英平行语料的平行处理[D];南京师范大学;2006年
7 黄魏;植物营养诊断自动应答网络专家系统研究[D];华中农业大学;2007年
8 高磊;压缩感知理论在宽带成像雷达Chirp回波处理中的应用研究[D];国防科学技术大学;2011年
9 段新涛;置换混叠图像盲分离特征域方法研究[D];上海大学;2011年
10 沈芸;古写本《群书治要·后汉书》异文研究[D];复旦大学;2010年
中国硕士学位论文全文数据库 前10条
1 许荣荣;中文文本自动分词技术与算法研究[D];郑州大学;2010年
2 王凯;中文分词算法在工程建设材料搜索中的研究与应用[D];大连交通大学;2010年
3 刁毓;基于本体的中文分词算法的研究与实现[D];曲阜师范大学;2012年
4 林冬盛;中文分词算法的研究与实现[D];西北大学;2011年
5 范敏敏;企业经营范围字段自动分类方法研究[D];哈尔滨工业大学;2010年
6 索南扎西;藏语语音合成关键技术研究[D];西藏大学;2011年
7 付敏;一个改进的中文分词算法及其在Lucene中的应用[D];华中科技大学;2010年
8 张琨雨;在线字典训练及加权差异性稀疏表示的研究[D];大连理工大学;2011年
9 朱世猛;中文分词算法的研究与实现[D];电子科技大学;2011年
10 韩雪冬;基于CRFs的中文分词算法研究与实现[D];北京邮电大学;2010年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62791813
  • 010-62985026