收藏本站
《延边大学学报(自然科学版)》 2017年01期
收藏 | 投稿 | 手机打开
二维码
手机客户端打开本文

基于MapReduce的朴素贝叶斯算法在新闻分类中的应用

徐保鑫  怀丽波  崔荣一  
【摘要】:针对传统单点串行的分类算法在面对新闻数据规模较大、分类属性较多时存在效率低的问题,本文研究了朴素贝叶斯分类算法在MapReduce下的并行实现方法.首先对新闻信息进行分词、格式转换等预处理,然后进行特征提取、分类模型构造;最后进行了分类测试.测试结果表明,在大数据量的情况下,并行化的贝叶斯算法较传统的贝叶斯算法具有更好的执行效率和较高的扩展性.
【作者单位】延边大学工学院计算机科学与技术学科智能信息处理研究室;
【关键词】Hadoop 朴素贝叶斯 MapReduce 文本分类 新闻文本
【分类号】:TP391.1
【正文快照】:
0引言新闻网站的分类导航是将新闻资源按照一定的体系组合,给用户提供各级类目,方便用户浏览检索[1],但面对爆炸式的信息增长速度,用户获取准确信息的难度越来越加大,因此迫切需要对新闻信息进行有效的整理.文本分类技术是信息组织、文本挖掘的重要基础,可以较大程度地解决信

【相似文献】
中国期刊全文数据库 前10条
1 李欣;;一种对贝叶斯算法的改进算法分析[J];山东省农业管理干部学院学报;2011年05期
2 皮靖;邵雄凯;肖雅夫;;基于朴素贝叶斯算法的主题爬虫的研究[J];计算机与数字工程;2012年06期
3 杨忠强;秦亮曦;;一种基于维规约的属性加权朴素贝叶斯算法[J];信息技术;2013年12期
4 丁岳伟;潘涛;;利用贝叶斯算法过滤报文内容分析系统中的垃圾信息[J];上海理工大学学报;2008年01期
5 李森;赵洁;;基于朴素贝叶斯算法的语言特征描述研究[J];农业网络信息;2012年05期
6 汪明;张征;;SQL Server 2008 R2贝叶斯算法研究[J];河北软件职业技术学院学报;2011年03期
7 刘小强;;基于海量高维煤炭数据的分布式贝叶斯算法的研究与应用[J];煤炭技术;2013年09期
8 王洋;刘忠;;贝叶斯算法实现文本分类器[J];大众科技;2011年02期
9 马小龙;;一种改进的贝叶斯算法在垃圾邮件过滤中的研究[J];计算机应用研究;2012年03期
10 季永炜;闻宏强;赵浩强;周华;;利用朴素贝叶斯算法实现软件评测项目的自动分类[J];电脑编程技巧与维护;2014年06期
中国重要会议论文全文数据库 前1条
1 彭小明;辛阳;;基于增量贝叶斯算法的主题爬虫的设计与实现[A];第九届中国通信学会学术年会论文集[C];2012年
中国硕士学位论文全文数据库 前10条
1 王海鹏;基于HBase的人口收入水平的预测研究[D];大连海事大学;2015年
2 严嘉铭;基于云计算的文本分类研究与应用[D];浙江理工大学;2016年
3 陈东河;基于图书市场分析的选题方案研究及应用[D];北方工业大学;2016年
4 于杰;基于贝叶斯算法的屏蔽策略优化研究及手机助手系统实现[D];北京交通大学;2016年
5 满毅;基于增量学习朴素贝叶斯算法的ROLAP缓存机制的设计与实现[D];华东师范大学;2016年
6 朱娟;基于贝叶斯算法的多语言文档分类[D];苏州大学;2016年
7 杨忠强;基于属性加权和归约的朴素贝叶斯算法研究[D];广西大学;2013年
8 Emmanuel Kayitaba 阿玛尼;[D];中南大学;2010年
9 孙源泽;朴素贝叶斯算法及其在电信客户流失分析中的应用研究[D];湖南大学;2008年
10 林士杰;ID3算法、朴素贝叶斯算法和BP神经网络算法的比较和分析研究[D];内蒙古大学;2013年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62791813
  • 010-62985026