收藏本站
收藏 | 投稿 | 手机打开
二维码
手机客户端打开本文

一种改进型TF-IDF文本聚类方法

张蕾  姜宇  孙莉  
【摘要】:针对传统词频-逆文档频率(TF-IDF)算法对具有特定属性的文本分类存在的不足,尤其是词汇在特定分类中具有特殊意义情形下准确率较低的问题,提出一种改进的TF-IDF文本聚类算法.采用2015—2019年吉林省科研机构发表论文数据进行对比实验,分别用改进TF-IDF算法和传统TF-IDF算法先统计论文中的关键词词频,再通过K-means++算法进行聚类,最后使用随机森林算法分别评估聚类的准确性.实验结果表明,改进TF-IDF算法提高了分类的准确率.

知网文化
【相似文献】
中国期刊全文数据库 前16条
1 崔晴洋;梁小峰;倪静;李帅;张生;仲梁维;;基于卫星装配工艺的短文本聚类研究[J];软件工程;2020年04期
2 熊康平;;机器学习方法在文本聚类中的应用[J];电子世界;2018年22期
3 杨婉霞;孙理和;黄永峰;;结合语义与统计的特征降维短文本聚类[J];计算机工程;2012年22期
4 马娜;;文本聚类研究[J];电脑知识与技术;2009年20期
5 张毓;陈军清;;基于深度特征语义学习模型的垃圾短信文本聚类研究[J];现代计算机(专业版);2018年07期
6 毕强;刘健;鲍玉来;;基于语义相似度的文本聚类研究[J];现代图书情报技术;2016年12期
7 李向东;刘晓斌;武利平;常洪梅;;面向路线图编制的模糊均值文本聚类挖掘方法研究[J];河北工业大学学报;2011年03期
8 赵世奇;刘挺;李生;;一种基于主题的文本聚类方法[J];中文信息学报;2007年02期
9 车蕾;杨小平;;多特征融合文本聚类的新闻话题发现模型[J];国防科技大学学报;2017年03期
10 高宏宾;杨海振;张小彬;;一种改进的文本聚类方法[J];自动化技术与应用;2008年09期
11 徐秀芳;徐森;花小朋;徐静;皋军;安晶;;一种基于t-分布随机近邻嵌入的文本聚类方法[J];南京大学学报(自然科学);2019年02期
12 施维;王兴华;万巍;薛均;潘璀然;程显毅;董建成;王理;;基于竞争学习的大规模微博文本聚类[J];江苏科技大学学报(自然科学版);2017年06期
13 彭敏;黄佳佳;朱佳晖;黄济民;刘纪平;;基于频繁项集的海量短文本聚类与主题抽取[J];计算机研究与发展;2015年09期
14 邓三鸿;万接喜;王昊;刘喜文;;基于特征翻译和潜在语义标引的跨语言文本聚类实验分析[J];现代图书情报技术;2014年01期
15 傅承涛;谢佳璇;牛永洁;;新闻类短文本聚类新方法的研究[J];延安大学学报(自然科学版);2020年04期
16 王利峰;;动态索引树文本聚类方法中节点阀值的优化[J];电脑开发与应用;2010年09期
中国重要会议论文全文数据库 前17条
1 张越今;丁丁;;敏感话题发现中的增量型文本聚类模型[A];第30次全国计算机安全学术交流会论文集[C];2015年
2 赵世奇;刘挺;李生;;一种基于主题的文本聚类方法[A];第三届学生计算语言学研讨会论文集[C];2006年
3 王乐;田李;贾焰;韩伟红;;一个并行的文本聚类混合算法[A];第二十四届中国数据库学术会议论文集(研究报告篇)[C];2007年
4 章成志;;基于多语文本聚类的主题层次体系生成研究1)[A];国家自然科学基金委员会管理科学部宏观管理与政策学科青年基金获得者交流研讨会论文集[C];2010年
5 王洪俊;俞士汶;苏祺;施水才;肖诗斌;;中文文本聚类的特征单元比较[A];第二届全国信息检索与内容安全学术会议(NCIRCS-2005)论文集[C];2005年
6 胡吉祥;许洪波;刘悦;王斌;程学旗;;基于重复串的短文本聚类研究[A];全国第八届计算语言学联合学术会议(JSCL-2005)论文集[C];2005年
7 林灵;张百霞;李彦文;王耘;李志勇;;基于文本挖掘与计算机辅助药物设计的中药候选新药发现方法[A];第十二次全国中西医结合实验医学专业委员会暨第七次湖南省中西医结合神经科专业委员会学术年会论文集[C];2015年
8 孙承杰;朱文焕;林磊;刘远超;;BBS短文本聚类技术研究[A];第五届全国信息检索学术会议论文集[C];2009年
9 曾依灵;许洪波;白硕;;改进的OPTICS算法及其在文本聚类中的应用[A];第三届全国信息检索与内容安全学术会议论文集[C];2007年
10 任海平;李伟忠;姚诚伟;;基于深度学习的智能写稿辅助服务设计[A];中国新闻技术工作者联合会2017年学术年会论文集(学术论文篇)[C];2017年
11 颜端武;李晓鹏;王磊;成晓;;文本聚类中基于本体的相似性测度(英文)[A];全国语域web与本体能研讨会论文集[C];2006年
12 胡玉娴;;基于《知网》和遗传算法的中文文本聚类特征选择[A];2009全国计算机网络与通信学术会议论文集[C];2009年
13 曾依灵;许洪波;吴高巍;程学旗;白硕;;一种基于空间映射及尺度变换的聚类框架[A];第五届全国信息检索学术会议论文集[C];2009年
14 邱立坤;程葳;龙志祎;孙娇华;;面向BBS的话题挖掘初探[A];全国第八届计算语言学联合学术会议(JSCL-2005)论文集[C];2005年
15 ;内容简介[A];中国计算语言学研究前沿进展(2009-2011)[C];2011年
16 何莉;林鸿飞;;基于主题划分的分布式检索混合结果合并技术研究[A];中国计算机语言学研究前沿进展(2007-2009)[C];2009年
17 吴晨;宋丹;薛德军;师庆辉;;科技主题识别及表示[A];第五届全国信息检索学术会议论文集[C];2009年
中国博士学位论文全文数据库 前10条
1 徐森;文本聚类集成关键技术研究[D];哈尔滨工程大学;2010年
2 倪兴良;问答系统中的短文本聚类研究与应用[D];中国科学技术大学;2011年
3 李群;主题搜索引擎聚类算法的研究[D];北京林业大学;2011年
4 孟宪军;互联网文本聚类与检索技术研究[D];哈尔滨工业大学;2009年
5 高茂庭;文本聚类分析若干问题研究[D];天津大学;2007年
6 郝立丽;汉语文本数据挖掘[D];吉林大学;2009年
7 李芳;文本挖掘若干关键技术研究[D];北京化工大学;2010年
8 胡佳妮;文本挖掘中若干关键问题的研究[D];北京邮电大学;2008年
9 袁锋;中医医案文本挖掘的若干关键技术研究[D];山东师范大学;2016年
10 王纵虎;聚类分析优化关键技术研究[D];西安电子科技大学;2012年
中国硕士学位论文全文数据库 前20条
1 刘一鸣;基于划分与层次的文本聚类研究[D];山东师范大学;2012年
2 黎莹;基于知识图谱的聚类算法研究及其在文本聚类中的应用[D];厦门大学;2019年
3 刘宇鹏;新闻实时话题分析系统的研究与实现[D];辽宁大学;2019年
4 徐露;基于GloVe的文本聚类研究与改进[D];华南理工大学;2019年
5 唐镇;基于语义对偶模型的双语文本聚类研究[D];电子科技大学;2019年
6 卜秋瑾;基于密度峰值的聚类算法研究及其在文本聚类中的应用[D];南昌大学;2019年
7 崔壮壮;基于Word Embedding的短文本聚类算法研究及应用[D];哈尔滨工业大学;2019年
8 许振豪;基于词嵌入的流形主题模型的文本聚类研究[D];广东工业大学;2019年
9 王涛;新浪微博用户评论情感分析及聚类研究[D];黑龙江大学;2019年
10 张国锋;在文章聚类中话题热度排序的研究与实现[D];东华大学;2019年
11 杨培全;基于向量空间的英文文本聚类方法研究[D];安徽大学;2019年
12 魏银华;基于Python的古汉语文本聚类应用研究[D];大连理工大学;2018年
13 齐先婷;基于密度峰值优化的K-means文本聚类算法研究[D];武汉理工大学;2018年
14 王思文;基于交互意图建模的信息发掘技术研究[D];沈阳建筑大学;2017年
15 张云基;订单文本聚类分批策略在仓储分拣系统中的研究[D];山东大学;2019年
16 魏捷;论文审稿专家推荐系统的设计与实现[D];北京邮电大学;2019年
17 张瑞琴;基于Hadoop云计算平台的文本聚类并行化研究[D];沈阳工业大学;2018年
18 刘清星;医学CT报告文本结构化处理研究[D];湖南大学;2018年
19 王亚杰;基于改进CHIR-TCFS算法的中文短文本聚类方法研究[D];杭州电子科技大学;2018年
20 詹春霞;基于CFSFDP的文本聚类及其应用[D];杭州电子科技大学;2018年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62982499
  • 010-62783978