收藏本站
《计算机应用》 2006年S1期
收藏 | 投稿 | 手机打开
二维码
手机客户端打开本文

一种用于文本聚类的改进的K均值算法

任江涛  孙婧昊  施潇潇  黄焕宇  印鉴  
【摘要】:K均值算法是聚类分析中使用最为广泛的算法之一。针对文本聚类所面临的维数灾难,稀疏向量以及标准K均值算法初始中心点选择的随机性等问题,提出了一种面向文本聚类的改进的K均值算法,通过运用特征选择及降维、稀疏向量筛除、基于密度及散布的初始中心点搜索等方法进行改进。实验结果表明,改进后的算法无论在聚类精度还是在稳定性等方面,都明显优于标准的K均值算法。

【引证文献】
中国硕士学位论文全文数据库 前2条
1 高华;基于聚类分块支持向量机的入侵检测算法[D];南京理工大学;2007年
2 郑洁;Windows环境下受损的文件类型信息识别技术研究[D];解放军信息工程大学;2007年
【同被引文献】
中国期刊全文数据库 前10条
1 湛燕,杨芳,王熙照;基于遗传算法学习聚类算法的中心个数[J];计算机工程与应用;2003年16期
2 黄勇;郑春颖;宋忠虎;;多类支持向量机算法综述[J];计算技术与自动化;2005年04期
3 唐发明,王仲东,陈绵云;支持向量机多类分类算法研究[J];控制与决策;2005年07期
4 孙才志,王敬东,潘俊;模糊聚类分析最佳聚类数的确定方法研究[J];模糊系统与数学;2001年01期
5 李德毅,孟海军,史雪梅;隶属云和隶属云发生器[J];计算机研究与发展;1995年06期
6 吕辉军,王晔,李德毅,刘常昱;逆向云在定性评价中的应用[J];计算机学报;2003年08期
7 罗海飞;吴刚;杨金生;;基于贝叶斯的文本分类方法[J];计算机工程与设计;2006年24期
8 孙学刚,陈群秀,马亮;基于主题的Web文档聚类研究[J];中文信息学报;2003年03期
9 鲁明羽,李凡,庞淑英,陆玉昌,周立柱;基于权值调整的文本分类改进方法[J];清华大学学报(自然科学版);2003年04期
10 余芳,姜云飞;一种基于朴素贝叶斯分类的特征选择方法[J];中山大学学报(自然科学版);2004年05期
中国博士学位论文全文数据库 前3条
1 谭松波;高性能文本分类算法研究[D];中国科学院研究生院(计算技术研究所);2006年
2 徐建锁;知识管理和文本挖掘的若干问题研究[D];天津大学;2004年
3 卜东波;聚类/分类理论研究及其在文本挖掘中的应用[D];中国科学院研究生院(计算技术研究所);2000年
中国硕士学位论文全文数据库 前10条
1 谢华;Internet网页自动分类技术的研究[D];中南大学;2007年
2 罗朝晖;计算机犯罪侦查取证技术——计算机证据研究[D];北京工业大学;2003年
3 颜辉;人工神经网络在入侵检测中的应用[D];长春理工大学;2004年
4 刘世翔;网络入侵检测系统研究与实现[D];吉林大学;2004年
5 刘伟;基于数据挖掘的入侵检测系统研究[D];山东科技大学;2005年
6 段善荣;基于免疫原理的网络入侵检测系统的研究[D];武汉理工大学;2006年
7 宋平平;基于数据挖掘的入侵检测系统研究[D];合肥工业大学;2006年
8 姜英;模糊数据挖掘技术在入侵检测系统中的应用[D];曲阜师范大学;2006年
9 魏春英;基于免疫原理的入侵检测技术研究[D];山东师范大学;2006年
10 吉磊;基于数据挖掘的入侵检测技术研究[D];上海交通大学;2007年
【相似文献】
中国期刊全文数据库 前10条
1 李正;倪远平;刘迪;王海鹏;;实蝇图像识别中的形态特征提取研究[J];计算机仿真;2011年07期
2 冯霞;闫冠男;李娟娟;;一种基于潜在语义索引的谱聚类方法研究[J];中国民航大学学报;2011年03期
3 李正;倪远平;刘迪;王海鹏;;实蝇图像识别中的形态特征提取研究[J];机械与电子;2010年S1期
4 王春腾;符传谊;邢洁清;;一种改进的谱聚类方法及其在文本分析中的应用[J];电脑知识与技术;2011年16期
5 冯霞;刘志辉;田继存;;基于假设检验的文本分类特征选择[J];信息与控制;2011年03期
6 张国梁;肖超锋;;基于SVM新闻文本分类的研究[J];电子技术;2011年08期
7 郑娅峰;张巧荣;肖会敏;;自动特征选择和加权的图像显著区域检测[J];计算机工程与应用;2011年24期
8 王桂娟;印鉴;詹卫许;;基于类别信息的特征子图选择策略[J];计算机科学;2011年08期
9 杨经;林世平;;基于SVM的文本词句情感分析[J];计算机应用与软件;2011年09期
10 奉国和;郑伟;;文本分类特征降维研究综述[J];图书情报工作;2011年09期
中国重要会议论文全文数据库 前10条
1 李娜;曾向阳;;目标识别中的样本选择和特征选择联合算法研究[A];2009年西安-上海声学学术会议论文集[C];2009年
2 张永;陈思睿;杨志勇;;一种改进的文本分类方法的研究[A];第二届全国信息检索与内容安全学术会议(NCIRCS-2005)论文集[C];2005年
3 徐燕;孙春明;王斌;李锦涛;;基于词条频率的特征选择算法研究[A];中文信息处理前沿进展——中国中文信息学会二十五周年学术会议论文集[C];2006年
4 靖红芳;王斌;杨雅辉;;基于类别分布的特征选择框架[A];第四届全国信息检索与内容安全学术会议论文集(上)[C];2008年
5 刘怡;高玥;;一种基于文本关键字模型的Audio音乐情感分类方法[A];第四届和谐人机环境联合学术会议论文集[C];2008年
6 胡玉娴;;基于《知网》和遗传算法的中文文本聚类特征选择[A];2009全国计算机网络与通信学术会议论文集[C];2009年
7 于江德;王希杰;余正涛;;基于最大熵模型的语义角色标注[A];2010年全国开放式分布与并行计算机学术会议论文集[C];2010年
8 刘功申;李建华;李生红;;基于类信息的特征选择和加权方法[A];NCIRCS2004第一届全国信息检索与内容安全学术会议论文集[C];2004年
9 王浩畅;赵铁军;刘延力;于浩;;生物医学文本中命名实体识别的智能化方法[A];2006年首届ICT大会信息、知识、智能及其转换理论第一次高峰论坛会议论文集[C];2006年
10 方高林;于浩;;最大熵语言模型及其在模式识别中新的应用[A];全国第八届计算语言学联合学术会议(JSCL-2005)论文集[C];2005年
中国重要报纸全文数据库 前1条
1 王培森;从Web挖到竞争情报[N];中国计算机报;2003年
中国博士学位论文全文数据库 前10条
1 韦娜;基于内容图像检索关键技术研究[D];西北大学;2006年
2 燕忠;基于蚁群优化算法的若干问题的研究[D];东南大学;2005年
3 孟宪军;互联网文本聚类与检索技术研究[D];哈尔滨工业大学;2009年
4 陈晓云;文本挖掘若干关键技术研究[D];复旦大学;2005年
5 李勇明;尿沉渣图像自动识别算法的研究[D];重庆大学;2007年
6 杨水山;冷轧带钢表面缺陷机器视觉自动检测技术研究[D];哈尔滨工业大学;2009年
7 徐森;文本聚类集成关键技术研究[D];哈尔滨工程大学;2010年
8 刘健;面向信息检索的文本信息组织关键技术研究[D];国防科学技术大学;2009年
9 熊文;基于群智的特征选择、分类与聚类挖掘的研究[D];北京邮电大学;2010年
10 刘华文;基于信息熵的特征选择算法研究[D];吉林大学;2010年
中国硕士学位论文全文数据库 前10条
1 胡吉祥;基于频繁模式的消息文本聚类研究[D];中国科学院研究生院(计算技术研究所);2006年
2 龚静;中文文本聚类中特征选择算法的研究[D];湘潭大学;2006年
3 马玉静;基于群体智能的文本聚类技术研究[D];燕山大学;2009年
4 何晏成;基于近邻传播和凝聚层次的文本聚类方法[D];哈尔滨工业大学;2010年
5 简艳;基于潜在语义的中文文本聚类及其应用[D];东北大学;2008年
6 俞文明;Web中文文本聚类研究[D];杭州电子科技大学;2009年
7 梁维铿;基于Hadoop的分布式文本聚类研究[D];华南理工大学;2011年
8 张金;个性化信息检索系统中文本聚类的研究[D];东北师范大学;2010年
9 于丽丽;基于DK-Means算法的文本聚类的研究与实现[D];东北大学;2008年
10 李梅;改进的K均值算法在中文文本聚类中的研究[D];安徽大学;2010年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62791813
  • 010-62985026