收藏本站
《计算机工程》 2010年05期
收藏 | 投稿 | 手机打开
二维码
手机客户端打开本文

基于最大匹配的中文分词概率算法研究

何国斌  赵晶璐  
【摘要】:结合顺序表和跳跃表的快速查询特性,提出一种改进的整词分词词典结构,主要采用哈希法和二分法进行分词匹配,并针对机械分词算法的特点,引入随机数,探讨一种基于最大匹配的分词概率算法。实验表明,该算法具有较高的分词效率和准确率,对消去歧义词也有较好的性能。

【参考文献】
中国期刊全文数据库 前3条
1 文庭孝;汉语自动分词研究进展[J];图书与情报;2005年05期
2 李荣陆,王建会,陈晓云,陶晓鹏,胡运发;使用最大熵模型进行中文文本分类[J];计算机研究与发展;2005年01期
3 曾华琳,李堂秋,史晓东;一种基于提取上下文信息的分词算法[J];计算机应用;2005年09期
【共引文献】
中国期刊全文数据库 前10条
1 冯素琴;陈惠明;;利用上下文信息解决汉语组合型歧义[J];电脑开发与应用;2007年01期
2 陈文庆,李勤,姚伽华;基于最大熵模型的垃圾邮件过滤技术[J];广西师范学院学报(自然科学版);2005年01期
3 尚文倩;黄厚宽;刘玉玲;林永民;瞿有利;董红斌;;文本分类中基于基尼指数的特征选择算法研究[J];计算机研究与发展;2006年10期
4 贾宁;;使用概念基元特征进行自动文本分类[J];计算机工程与应用;2007年01期
5 崔彩霞;王素格;;基于粗集的支持向量机文本分类方法研究[J];科技广场;2006年08期
6 孙景广;蔡东风;吕德新;董燕举;;基于知网的中文问题自动分类[J];中文信息学报;2007年01期
7 苏金树;张博锋;徐昕;;基于机器学习的文本分类技术研究进展[J];软件学报;2006年09期
8 冯素琴;陈惠明;;一种自组织的汉语组合型歧义消歧方法[J];计算机工程与设计;2007年03期
9 张科;;多次Hash快速分词算法[J];计算机工程与设计;2007年07期
10 方志;夏立新;刘启强;;中外全文检索研究的现状及趋势[J];图书情报知识;2006年05期
中国重要会议论文全文数据库 前4条
1 谷波;刘开瑛;;决策树模型和最大熵模型在文本分类中的比较研究[A];全国第八届计算语言学联合学术会议(JSCL-2005)论文集[C];2005年
2 李军辉;朱巧明;李培峰;;一个基于最大熵模型的文本分类方法[A];第二届全国信息检索与内容安全学术会议(NCIRCS-2005)论文集[C];2005年
3 王素格;张武;李德玉;杨军玲;彭其伟;;基于最大熵模型的汉语动词与动词搭配识别[A];中文信息处理前沿进展——中国中文信息学会二十五周年学术会议论文集[C];2006年
4 张玮;孙乐;冯元勇;吕元华;;一种结合分类模型的中文输入法[A];中文信息处理前沿进展——中国中文信息学会二十五周年学术会议论文集[C];2006年
中国博士学位论文全文数据库 前7条
1 孟静;光学层析图像的重建技术研究[D];苏州大学;2006年
2 古平;基于贝叶斯模型的文档分类及相关技术研究[D];重庆大学;2006年
3 王树梅;信息检索相关技术研究[D];南京理工大学;2007年
4 黄魏;植物营养诊断自动应答网络专家系统研究[D];华中农业大学;2007年
5 周顺先;文本信息抽取模型及算法研究[D];湖南大学;2007年
6 何琳;古农学本体的半自动构建及检索研究[D];南京农业大学;2007年
7 尚文倩;文本分类及其相关技术研究[D];北京交通大学;2007年
中国硕士学位论文全文数据库 前10条
1 崔彩霞;基于支持向量机的文本分类方法研究[D];山西大学;2005年
2 邹丹;基于Web的中文文本分类的研究与实现[D];中国地质大学(北京);2006年
3 马忠宝;基于支持向量机的中文文本分类系统研究[D];武汉理工大学;2006年
4 杨军玲;汉语动词词语搭配自动获取方法研究[D];山西大学;2006年
5 毛伟;基于统计语言模型的中文自动文本分类系统[D];北京邮电大学;2006年
6 叶浩;基于类信息的潜在语义多类文本分类模型研究[D];江西师范大学;2006年
7 司广涛;基于最大熵模型的垃圾邮件过滤系统研究[D];苏州大学;2006年
8 修宇;方向性聚类技术及其应用[D];江南大学;2006年
9 董学春;文本分类及其在涉密资料管理中的应用[D];合肥工业大学;2006年
10 杨鹏;面向领域自然语言的文本自动分类及其在产品设计中的应用[D];西安电子科技大学;2007年
【同被引文献】
中国期刊全文数据库 前10条
1 孙茂松,邹嘉彦;汉语自动分词研究评述[J];当代语言学;2001年01期
2 孙茂松,左正平,邹嘉彦;高频最大交集型歧义切分字段在汉语自动分词中的作用[J];中文信息学报;1999年01期
3 韩客松,王永成,陈桂林;汉语语言的无词典分词模型系统[J];计算机应用研究;1999年10期
4 韩世欣,王开铸;基于短语结构文法的分词研究[J];中文信息学报;1992年03期
5 俞士汶,段慧明,朱学锋,张化瑞;综合型语言知识库的建设与利用[J];中文信息学报;2004年05期
6 袁兴宇;王挺;周会平;肖君;;以本体构造中文信息过滤中的需求模型[J];中文信息学报;2006年03期
7 万建成,杨春花;书面汉语的全切分分词算法模型[J];小型微型计算机系统;2003年07期
8 冯志伟;;汉字的熵[J];语文建设;1984年04期
9 文庭孝;汉语自动分词研究进展[J];图书与情报;2005年05期
10 孙西全;马瑞芳;李燕灵;;基于Lucene的信息检索的研究与应用[J];情报理论与实践;2006年01期
中国重要会议论文全文数据库 前1条
1 关毅;王晓龙;;基于统计的汉语词汇间语义相似度计算[A];语言计算与基于内容的文本处理——全国第七届计算语言学联合学术会议论文集[C];2003年
中国博士学位论文全文数据库 前3条
1 刘永丹;文档数据库若干关键技术研究[D];复旦大学;2004年
2 鲁松;自然语言处理中词相关性知识无导获取和均衡分类器构建[D];中国科学院研究生院(计算技术研究所);2001年
3 刘炜;智能元搜索引擎中个性化模式库的研究[D];太原理工大学;2007年
中国硕士学位论文全文数据库 前10条
1 贺艳艳;基于词表结构的中文分词算法研究[D];中国地质大学(北京);2007年
2 苏潭英;面向中文的数据库全文检索及其相关安全技术研究[D];解放军信息工程大学;2007年
3 刘平冰;基于Lucene的Web站内信息搜索系统[D];电子科技大学;2005年
4 常晓燕;基于Java的新闻搜索引擎的设计与实现[D];西南交通大学;2004年
5 王晓伟;垂直搜索引擎若干关键技术的研究[D];浙江大学;2007年
6 寿周翔;专业搜索引擎的研究与设计[D];浙江大学;2005年
7 吴卓斌;基于LUCENE全文搜索引擎关键技术的研究[D];暨南大学;2007年
8 南铉国;基于语句相似度计算的主观题自动评分技术研究[D];延边大学;2007年
9 苏振魁;基于马尔科夫模型的文本相似度研究[D];大连理工大学;2007年
10 林丽;基于语义距离的文本聚类算法研究[D];厦门大学;2007年
【二级参考文献】
中国期刊全文数据库 前10条
1 梁南元;汉语自动分词知识[J];北京航空航天大学学报;1988年04期
2 文庭孝;情报检索中汉语语词自动切分研究[J];图书与情报;2001年02期
3 蒋微;中文搜索引擎的自动分词算法[J];电脑开发与应用;2002年06期
4 刘挺,吴岩,王开铸;最大概率分词问题及其解法[J];哈尔滨工业大学学报;1998年06期
5 马哲,姚敏;一种改进的基于PATRICIA树的汉语自动分词词典机制[J];华南理工大学学报(自然科学版);2004年S1期
6 林绮屏;基于词形的最佳路径分词算法[J];华南师范大学学报(自然科学版);2002年04期
7 郑延斌;书面汉语自动分词及歧义分析[J];河南师范大学学报(自然科学版);1997年04期
8 郭艳华,周昌乐;自然语言理解研究综述[J];杭州电子工业学院学报;2000年01期
9 陈桂林,王永成,韩客松,王刚;一种改进的快速分词算法[J];计算机研究与发展;2000年04期
10 罗智勇;宋柔;;现代汉语通用分词系统中歧义切分的实用技术[J];计算机研究与发展;2006年06期
【相似文献】
中国期刊全文数据库 前10条
1 史晓东;卢亚军;;央金藏文分词系统[J];中文信息学报;2011年04期
2 ;[J];;年期
3 ;[J];;年期
4 ;[J];;年期
5 ;[J];;年期
6 ;[J];;年期
7 ;[J];;年期
8 ;[J];;年期
9 ;[J];;年期
10 ;[J];;年期
中国硕士学位论文全文数据库 前10条
1 武红;分词词典的构建[D];内蒙古师范大学;2010年
2 蔡蕊;一种新的搜索引擎分词词典的研究[D];山东大学;2010年
3 魏莎莎;一种中文未登录词识别及词典设计新方法[D];西南大学;2011年
4 习明;基于WEB的社区智能医疗服务系统的研究[D];吉林农业大学;2011年
5 姜鹏;基于双数组的分词词典研究与实现[D];大连理工大学;2006年
6 魏文密;文语转换方法研究[D];长安大学;2007年
7 陈明华;语音合成系统中自动分词技术的研究[D];哈尔滨理工大学;2009年
8 周程远;中文自动分词系统的研究与实现[D];华东师范大学;2010年
9 陈正思;基于TRS信息检索技术的文献资源统一检索平台的构建[D];中南大学;2011年
10 刘京城;竞争对手网站商业情报挖掘[D];安徽大学;2011年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62791813
  • 010-62985026