收藏本站
收藏 | 投稿 | 论文排版

基于大数据挖掘技术的文本分类研究

孟鑫淼  
【摘要】:文本数据具有规模大、特征维数高等特点,当前文本分类方法无法刻画文本变化特点,使得文本分类正确率低、误差大、分类时间长,为了获得理想的文本分类效果,设计基于大数据挖掘技术的文本分类方法。首先对当前文本分类的研究进展进行分析,找出导致当前文本分类效果差的原因;然后,提取文本分类原始特征,并引入核主成分分析算法对原始特征进行处理,降低特征维数,简化文本分类器的结构;最后,采用大数据挖掘技术构建文本分类器,并与其他文本分类方法进行对比测试。测试结果表明,所提方法可以更好地描述文本变化特点,能够对各种类型文本进行准确识别和分类,文本分类精度超过95%,明显高于当前其他文本分类方法,并且所提方法的文本分类时间显著减少,具有更好的文本分类效果。

知网文化
【相似文献】
中国期刊全文数据库 前16条
1 周永称;崔忠芳;范少萍;安新颖;;基于深度学习的生物医学文本分类研究[J];中华医学图书情报杂志;2019年11期
2 张晓辉;于双元;王全新;徐保民;;基于对抗训练的文本表示和分类算法[J];计算机科学;2020年S1期
3 邹晶;冯剑琳;李曲;王元珍;;基于句子级的最大频繁序列的文本分类[J];计算机科学;2006年01期
4 江明奇;李逸薇;刘欢;李寿山;;面向问答文本的属性级情感分类研究[J];计算机科学;2019年S2期
5 龚垒;;基于特征类别均衡的文本分类分类方法[J];电子世界;2017年13期
6 菅小艳;崔彩霞;;基于朴素贝叶斯的文本分类[J];电脑开发与应用;2013年12期
7 文莎;;基于神经网络的文本分类[J];信息通信;2019年12期
8 徐红;;浅析手机取证中的文本分类[J];科技与创新;2019年22期
9 杨开漠;吴明芬;陈涛;;广义文本情感分析综述[J];计算机应用;2019年S2期
10 王倩;曾金;刘家伟;戚越;;基于深度学习的学术文本段落结构功能识别研究[J];情报科学;2020年03期
11 王立荣;;Word2vec-CNN-Bilstm短文本情感分类[J];福建电脑;2020年01期
12 姚加权;张锟澎;罗平;;金融学文本大数据挖掘方法与研究进展[J];经济学动态;2020年04期
13 王建新;王子亚;田萱;;基于深度学习的自然场景文本检测与识别综述[J];软件学报;2020年05期
14 张旭;王旭强;杨青;王扬;;面向文本的结构——内容联合表示学习模型[J];计算机应用研究;2020年S1期
15 李东勤;王芳;周万怀;;自然场景图像中的文本检测方法研究[J];重庆科技学院学报(自然科学版);2016年06期
16 朱宇;;基于社交文本的人格研究综述[J];现代计算机(专业版);2017年09期
中国重要会议论文全文数据库 前10条
1 石志伟;吴功宜;;改善朴素贝叶斯在文本分类中的稳定性[A];NCIRCS2004第一届全国信息检索与内容安全学术会议论文集[C];2004年
2 张智军;沈昉;朱伟;;文本组织方式对介绍性文章搜索绩效的影响研究[A];中国人类工效学学会第六次学术交流会论文摘要汇编[C];2003年
3 周昭涛;卜东波;程学旗;;文本的图表示初探[A];NCIRCS2004第一届全国信息检索与内容安全学术会议论文集[C];2004年
4 许君;王朝坤;刘立超;王建民;刘璋;;云环境中的近似复制文本检测[A];第29届中国数据库学术会议论文集(B辑)(NDBC2012)[C];2012年
5 易绵竹;南振兴;李绍哲;薛恩奎;;文本生成与理解的语言学模拟——伊戈尔·梅里丘克《意思(?)文本》模型评介[A];语言计算与基于内容的文本处理——全国第七届计算语言学联合学术会议论文集[C];2003年
6 王树西;白硕;姜吉发;;基于自由文本的模式推理[A];NCIRCS2004第一届全国信息检索与内容安全学术会议论文集[C];2004年
7 罗长升;段建国;许洪波;郭莉;;基于拉推策略的文本分类增量学习研究[A];第三届全国信息检索与内容安全学术会议论文集[C];2007年
8 任函;何婷婷;;大规模在线文本的自动分类研究[A];全国第八届计算语言学联合学术会议(JSCL-2005)论文集[C];2005年
9 钟辉;黄洋;;基于版面特征的文档图像的文本定位方法[A];2008'中国信息技术与应用学术论坛论文集(二)[C];2008年
10 黄云平;孙乐;李文波;;基于上下文图模型文本表示的文本分类研究[A];第四届全国信息检索与内容安全学术会议论文集(上)[C];2008年
中国博士学位论文全文数据库 前10条
1 方莹;面向热点新闻话题的文本处理技术研究[D];北京理工大学;2015年
2 宋胜利;文本语义表示及多层分类关键技术研究[D];西安电子科技大学;2012年
3 刘晓佩;自然场景文本信息提取关键技术研究[D];西安电子科技大学;2014年
4 闫琰;基于深度学习的文本表示与分类方法研究[D];北京科技大学;2016年
5 王中卿;基于文本信息的社会关系分析与研究[D];苏州大学;2016年
6 章东平;视频文本的提取[D];浙江大学;2006年
7 李岩;基于深度学习的短文本分析与计算方法研究[D];北京科技大学;2016年
8 李丽洁;视频中文本信息提取技术研究[D];哈尔滨工程大学;2012年
9 孙巧榆;复杂背景图像的文本信息提取研究[D];华东师范大学;2012年
10 尹芳;场景文本识别关键技术研究[D];哈尔滨理工大学;2012年
中国硕士学位论文全文数据库 前10条
1 杨超群;基于自身特征的短文本分类研究[D];合肥工业大学;2016年
2 谢娟;云模型在文本分类中的应用研究[D];重庆大学;2013年
3 陈林;独立于语种的文本分类研究[D];重庆大学;2007年
4 姜英杰;基于本体的短文本分类研究[D];东北师范大学;2010年
5 蒋子海;基于元信息的文本分类与优化技术研究与实现[D];国防科学技术大学;2010年
6 袁媛;基于半监督学习的短文本分类研究[D];西北师范大学;2015年
7 王小燕;文本分类相关技术与应用研究[D];西北大学;2007年
8 张桂喜;基于语义的领域相关文本分类研究[D];北京工业大学;2011年
9 蔡志威;基于概念的短文本分类[D];华南理工大学;2016年
10 曾颖黎;网络舆情文本分类系统研究与开发[D];电子科技大学;2014年
中国重要报纸全文数据库 前10条
1 刘向晨;Word中的虚拟文本[N];中国电脑教育报;2003年
2 飞鱼;巧用COPY命令加密文本文件[N];江苏经济报;2003年
3 飞鱼;巧用COPY命令加密文本文件[N];中国电脑教育报;2003年
4 ;BI和文本分析的强强联手[N];网络世界;2007年
5 浙江省绍兴县职业教育中心 何永胜;让文本发声[N];中国电脑教育报;2004年
6 福建 陈桂鑫;让文本文件更精彩[N];电脑报;2002年
7 朱宝贵;Authorware 插入文本的四种方法[N];中国电脑教育报;2004年
8 宋志明;文本也能转成MP3[N];中国电脑教育报;2004年
9 李永波;实现滚动文本一例[N];中国电脑教育报;2004年
10 广东 魔岩;做一个English文本朗读机[N];电脑报;2002年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62982499
  • 010-62783978