收藏本站
收藏 | 投稿 | 手机打开
二维码
手机客户端打开本文

基于密度峰值优化的K-means文本聚类算法

田诗宵  丁立新  郑金秋  
【摘要】:传统K-means算法中初始质心选定的随机性可能使算法陷入局部最优解,使聚类结果不够准确。改进初始质心的选择算法,为各样本点引入局部密度指标,根据其局部密度分布情况,选取处于密度峰值的点作为初始质心,得到稳定的离收敛质心很近的初始质心,减少算法迭代次数,提高运行效率,降低陷入局部最优的概率,显著提高聚类准确性。实验结果表明,与几种已有算法相比,该算法在文本聚类中有明显优势。

知网文化
【相似文献】
中国期刊全文数据库 前20条
1 赵亚琴;周献中;;一种基于小生境遗传算法的中文文本聚类新方法[J];计算机工程;2006年06期
2 刘务华;罗铁坚;王文杰;;文本聚类技术的有效性验证[J];计算机工程;2007年01期
3 丁堃;许侃;;基于文本聚类方法的我国科技管理研究领域的计量研究[J];科学学研究;2007年S1期
4 孙爱香;杨鑫华;;关于文本聚类有效性评价的研究[J];山东理工大学学报(自然科学版);2007年05期
5 丘志宏;宫雷光;;利用上下文提高文本聚类的效果[J];中文信息学报;2007年06期
6 吴启明;易云飞;;文本聚类综述[J];河池学院学报;2008年02期
7 李江华;杨书新;刘利峰;;基于概念格的文本聚类[J];计算机应用;2008年09期
8 赵文鹏;;浅谈文本聚类研究[J];企业家天地下半月刊(理论版);2009年02期
9 章成志;;文本聚类结果描述研究综述[J];现代图书情报技术;2009年02期
10 马娜;;文本聚类研究[J];电脑知识与技术;2009年20期
11 王崇国;;以事件为特征的文本聚类方法[J];计算机应用与软件;2010年08期
12 王利峰;;动态索引树文本聚类方法中节点阀值的优化[J];电脑开发与应用;2010年09期
13 谢凤宏;张大为;黄丹;谢福鼎;;基于复杂网络社团划分的文本聚类方法[J];计算机工程与设计;2011年03期
14 高松;冯志伟;;基于依存树库的文本聚类研究[J];中文信息学报;2011年03期
15 曲超;潘晓衡;朱君;蔡少仲;胡天明;;基于单词超团的文本聚类方法[J];计算机工程;2011年11期
16 马晓雷;文秋芳;;基于文本聚类的被引内容分析——一种分析领域知识的新方法[J];图书情报工作;2011年04期
17 钟将;刘龙海;梁传伟;;基于成对约束的主动半监督文本聚类[J];计算机工程;2011年13期
18 吕岩;;改进蚁群算法在文本聚类中的应用研究[J];微电子学与计算机;2012年03期
19 陈巍;;浅谈文本聚类在信息分析中的应用[J];信息系统工程;2012年10期
20 周扬;屈武斌;卢一鸣;张成岗;杨毅;;基于文本频谱的中文文本聚类方法[J];四川大学学报(自然科学版);2012年06期
中国重要会议论文全文数据库 前10条
1 赵世奇;刘挺;李生;;一种基于主题的文本聚类方法[A];第三届学生计算语言学研讨会论文集[C];2006年
2 王洪俊;俞士汶;苏祺;施水才;肖诗斌;;中文文本聚类的特征单元比较[A];第二届全国信息检索与内容安全学术会议(NCIRCS-2005)论文集[C];2005年
3 胡吉祥;许洪波;刘悦;王斌;程学旗;;基于重复串的短文本聚类研究[A];全国第八届计算语言学联合学术会议(JSCL-2005)论文集[C];2005年
4 白刚;张铮;丁宗尧;朱毅;;中文文本聚类在互联网搜索的研究与应用[A];第三届全国信息检索与内容安全学术会议论文集[C];2007年
5 王明文;付剑波;罗远胜;陆旭;;基于协同聚类的两阶段文本聚类方法研究[A];第四届全国信息检索与内容安全学术会议论文集(上)[C];2008年
6 张猛;王大玲;于戈;;一种基于自动阈值发现的文本聚类方法[A];第二十一届中国数据库学术会议论文集(研究报告篇)[C];2004年
7 王乐;田李;贾焰;韩伟红;;一个并行的文本聚类混合算法[A];第二十四届中国数据库学术会议论文集(研究报告篇)[C];2007年
8 王莹;刘杨;;维基百科的文本聚类方法分析[A];2009年研究生学术交流会通信与信息技术论文集[C];2009年
9 张宝艳;王庆辉;;中文文本聚类的研究与实现[A];第一届学生计算语言学研讨会论文集[C];2002年
10 章成志;;基于多语文本聚类的主题层次体系生成研究1)[A];国家自然科学基金委员会管理科学部宏观管理与政策学科青年基金获得者交流研讨会论文集[C];2010年
中国博士学位论文全文数据库 前3条
1 徐森;文本聚类集成关键技术研究[D];哈尔滨工程大学;2010年
2 高茂庭;文本聚类分析若干问题研究[D];天津大学;2007年
3 孟宪军;互联网文本聚类与检索技术研究[D];哈尔滨工业大学;2009年
中国硕士学位论文全文数据库 前10条
1 康健;基于Multi-agent和群体智能的藏文网络舆情管理研究[D];西南交通大学;2015年
2 张培伟;基于改进Single-Pass算法的热点话题发现系统的设计与实现[D];华中师范大学;2015年
3 郭士串;结合权重因子与特征向量的文本聚类研究与应用[D];江西理工大学;2015年
4 邵明来;中文文本聚类关键技术研究[D];广西大学;2015年
5 王恒静;基于词类和搭配的微博舆情文本聚类方法研究[D];江苏科技大学;2015年
6 吴洁洁;基于RI方法的文本聚类研究[D];南昌大学;2015年
7 樊兆欣;个性化新闻推荐系统关键技术研究与实现[D];北京理工大学;2015年
8 苏圣瞳;微博热点话题发现系统的设计与实现[D];复旦大学;2014年
9 孙东普;融合属性抽取的多粒度专利文本聚类研究[D];大连理工大学;2015年
10 李芸;基于爬虫和文本聚类分析的网络舆情分析系统设计与实现[D];电子科技大学;2014年
中国知网广告投放
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62982499
  • 010-62783978