收藏本站
《计算机研究与发展》 2005年03期
收藏 | 投稿 | 手机打开
二维码
手机客户端打开本文

一种高效的用于文本聚类的无监督特征选择算法

刘涛  吴功宜  陈正  
【摘要】:特征选择虽然非常成功地应用于文本分类,但却很少用于文本聚类,这是因为那些高效的特征选择方法通常都是有监督的特征选择算法,它们因为需要类信息而无法直接应用于文本聚类.为了能将这些方法应用到文本聚类上,提出了一种新的无监督特征选择算法:基于K-Means的特征选择算法(KFS).这个算法通过在不同K-Means聚类结果上使用有监督特征选择的方法,成功地选择出了最为重要的一小部分特征,使文本聚类的性能提高了近15%.

【引证文献】
中国期刊全文数据库 前10条
1 朱颢东;李红婵;钟勇;;新颖的无监督特征选择方法[J];电子科技大学学报;2010年03期
2 张梦笑;王素格;王智强;;基于LDA特征选择的文本聚类[J];电脑开发与应用;2012年01期
3 何中市;徐浙君;;一种新型的文本无监督特征选择方法[J];重庆大学学报(自然科学版);2007年06期
4 管仁初;裴志利;时小虎;杨晨;梁艳春;;权吸引子传播算法及其在文本聚类中的应用[J];计算机研究与发展;2010年10期
5 徐峻岭;周毓明;陈林;徐宝文;;基于互信息的无监督特征选择[J];计算机研究与发展;2012年02期
6 王小芳;王瑞芳;张树功;;一种无监督文本特征计算模型[J];吉林大学学报(理学版);2010年01期
7 王雅菲;赵伟;;一种基于相似融合的文本特征降维方法[J];长春工业大学学报(自然科学版);2009年06期
8 严莉莉;张燕平;;基于类信息的文本聚类中特征选择算法[J];计算机工程与应用;2007年12期
9 陈建超;胡桂武;杨志华;严桂夺;;基于全局性确定聚类中心的文本聚类[J];计算机工程与应用;2011年10期
10 殷钢;苗夺谦;段其国;;一种新的粗糙Leader聚类算法[J];计算机科学;2009年05期
中国重要会议论文全文数据库 前3条
1 王静帆;夏云庆;郑方;邬晓钧;;二阶段招聘信息检索方法[A];第九届全国人机语音通讯学术会议论文集[C];2007年
2 王明文;付剑波;罗远胜;陆旭;;基于协同聚类的两阶段文本聚类方法研究[A];第四届全国信息检索与内容安全学术会议论文集(上)[C];2008年
3 蔡嘉荣;印鉴;刘玉葆;黄志兰;;一种有效的文本聚类算法[A];第二十三届中国数据库学术会议论文集(技术报告篇)[C];2006年
中国博士学位论文全文数据库 前3条
1 曹苏群;基于模糊Fisher准则的聚类与特征降维研究[D];江南大学;2009年
2 管仁初;半监督聚类算法的研究与应用[D];吉林大学;2010年
3 彭菲菲;网络热点话题发现的关键技术研究[D];中国矿业大学(北京);2012年
中国硕士学位论文全文数据库 前10条
1 王雅菲;文本分类中特征降维方法的研究[D];长春工业大学;2010年
2 史德增;聚类算法在Web文本挖掘中的应用研究[D];太原理工大学;2011年
3 张鹏飞;WEB挖掘技术在网络警情监控中的应用研究[D];华北电力大学;2011年
4 张炼;基于图模型的Web文档分类方法研究[D];内蒙古科技大学;2010年
5 商雪晶;基于内容的相关书籍推荐技术研究[D];哈尔滨工业大学;2010年
6 徐东亮;基于聚类分析的网络论坛舆情信息挖掘技术研究[D];哈尔滨工业大学;2010年
7 何晏成;基于近邻传播和凝聚层次的文本聚类方法[D];哈尔滨工业大学;2010年
8 曹晓波;网络环境下人才知识结构智能交互生成方法研究[D];上海交通大学;2012年
9 乐兵;基于遗传算法的文本聚类技术研究[D];江西师范大学;2006年
10 王卫玲;web文本分类中特征向量优化技术研究[D];山东师范大学;2007年
【参考文献】
中国期刊全文数据库 前1条
1 陆玉昌,鲁明羽,李凡,周立柱;向量空间法中单词权重函数的分析和构造[J];计算机研究与发展;2002年10期
【共引文献】
中国期刊全文数据库 前10条
1 李文斌;刘椿年;陈嶷瑛;;基于特征信息增益权重的文本分类算法[J];北京工业大学学报;2006年05期
2 李玉鑑;操卫平;周兰珍;;结构化向量空间模型及其在Web信息检索中的应用[J];北京工业大学学报;2008年04期
3 顾益军,樊孝忠,王建华,汪涛,黄维金;中文停用词表的自动选取[J];北京理工大学学报;2005年04期
4 屈赟;杨捧;张文静;;基于信息粒度的主题相似性信息检索[J];河北农业大学学报;2011年01期
5 白凤凤;;基于不平衡数据集的文本分类技术研究[J];电脑编程技巧与维护;2010年06期
6 张红;;基于语义的中文搜索引擎研究[J];电脑知识与技术;2009年08期
7 王成强;;基于不平衡数据集的文本分类技术[J];电脑知识与技术;2009年36期
8 陈炎龙;张志明;;基于向量空间模型的英文文本难度判定[J];电脑知识与技术;2010年12期
9 苏力华;朱章华;白文华;;基于向量空间模型的文本分类特征权重算法研究[J];电脑知识与技术;2010年33期
10 熊小梅;刘永浪;;基于LSA的二次降维法在中文法律案情文本分类中的应用[J];电子测量技术;2007年10期
中国重要会议论文全文数据库 前4条
1 张爱华;靖红芳;王斌;徐燕;;文本分类中特征权重因子的作用研究[A];第五届全国信息检索学术会议论文集[C];2009年
2 王珍;维尼拉·木沙江;赵丽红;;维、哈、柯文搜索引擎中自动分类技术的应用研究[A];少数民族青年自然语言处理技术研究与进展——第三届全国少数民族青年自然语言信息处理、第二届全国多语言知识库建设联合学术研讨会论文集[C];2010年
3 赵燕平;李超;;网络安全信息挖掘中的特征选择与专利分析研究[A];2004年中国管理科学学术会议论文集[C];2004年
4 王慧芳;张勇;邢春晓;张文珂;杨吉江;;文本摘要算法集成与实现[A];第二十五届中国数据库学术会议论文集(二)[C];2008年
中国博士学位论文全文数据库 前10条
1 魏建香;学科交叉知识发现及其可视化研究[D];南京大学;2010年
2 张翔;文本挖掘技术研究及其在综合风险信息网络中的应用[D];西北大学;2011年
3 杨抒;基于WEB的林产品信息资源整合方法研究[D];北京林业大学;2011年
4 黄定轩;企业核心能力智能挖掘应用基础研究[D];西南交通大学;2005年
5 张友华;面向智能服务的Web内容计算研究与应用[D];中国科学技术大学;2006年
6 王秀娟;文本检索中若干问题研究[D];北京邮电大学;2006年
7 席运江;组织知识的网络表示模型及分析方法[D];大连理工大学;2007年
8 尚文倩;文本分类及其相关技术研究[D];北京交通大学;2007年
9 马晖男;信息检索中浅层语义模型的研究[D];大连理工大学;2007年
10 高茂庭;文本聚类分析若干问题研究[D];天津大学;2007年
中国硕士学位论文全文数据库 前10条
1 刘伟丽;基于粒子群算法和支持向量机的中文文本分类研究[D];河南工业大学;2010年
2 王雅菲;文本分类中特征降维方法的研究[D];长春工业大学;2010年
3 王阿婷;基于概念集合的网页内容过滤方法的研究[D];北京交通大学;2010年
4 吴惠雄;基于支持向量机与聚类算法的中文文本分类研究[D];中南林业科技大学;2009年
5 李慧;基于贝叶斯分类方法的中文问句分类研究[D];石家庄铁道学院;2010年
6 贾俊凯;公安业务文本信息挖掘的研究与实现[D];东华大学;2011年
7 巩军全;文本分类算法的研究与改进[D];西安电子科技大学;2010年
8 黄少冰;基于J2ME的移动网络个性化信息推荐研究[D];西安电子科技大学;2011年
9 杨玉珍;基于统计与规则的特征权重计算方法研究与应用[D];山东师范大学;2011年
10 范小丽;文本分类中特征选择的研究与实现[D];西北大学;2011年
【同被引文献】
中国期刊全文数据库 前10条
1 张燕平;提取特征规则的重复覆盖算法(RCA)[J];安徽大学学报(自然科学版);2002年02期
2 赵姝,张燕平,张铃,张媛,陈传明;覆盖聚类算法[J];安徽大学学报(自然科学版);2005年02期
3 张红云,石阳,马垣;数据挖掘中聚类算法比较研究[J];鞍山钢铁学院学报;2001年05期
4 谢纪刚;裘正定;;非平衡数据集Fisher线性判别模型[J];北京交通大学学报;2006年05期
5 顾益军,樊孝忠,王建华,汪涛,黄维金;中文停用词表的自动选取[J];北京理工大学学报;2005年04期
6 薛为民;陆玉昌;;文本挖掘技术研究[J];北京联合大学学报(自然科学版);2005年04期
7 高军,陈锡先;无监督的动态分词方法[J];北京邮电大学学报;1997年04期
8 吴小俊,杨静宇,王士同,刘同明;基于谱分解的F-S最佳鉴别平面及舰船识别研究[J];船舶力学;2003年02期
9 谷向东,郑日昌;基于胜任特征的人才测评[J];心理与行为研究;2004年04期
10 朱良,谈香如;一种用决策树对XML文档进行分类的方法[J];长沙电力学院学报(自然科学版);2004年02期
中国博士学位论文全文数据库 前10条
1 毛国君;数据挖掘技术与关联规则挖掘算法研究[D];北京工业大学;2003年
2 陈定权;自动主题搜索的应用研究[D];中国科学院研究生院(文献情报中心);2003年
3 应晓敏;面向Internet个性化服务的用户建模技术研究[D];中国人民解放军国防科学技术大学;2003年
4 夏迎炬;文本过滤关键技术研究[D];复旦大学;2003年
5 王莉;数据挖掘中聚类方法的研究[D];天津大学;2004年
6 杨尔弘;突发事件信息提取研究[D];北京语言大学;2005年
7 李荣陆;文本分类及其相关技术研究[D];复旦大学;2005年
8 陈晓云;文本挖掘若干关键技术研究[D];复旦大学;2005年
9 赵恒;数据挖掘中聚类若干问题研究[D];西安电子科技大学;2005年
10 蒋刚;核机器学习方法若干问题研究[D];西南交通大学;2006年
中国硕士学位论文全文数据库 前10条
1 陈飞宏;基于向量空间模型的中文文本相似度算法研究[D];电子科技大学;2011年
2 赵巍;基于聚类的网页相关性挖掘技术研究[D];东北师范大学;2005年
3 程传鹏;基于分类的智能信息检索研究与实现[D];云南师范大学;2005年
4 芦立华;基于后缀树的中文文本聚类算法研究[D];上海海事大学;2005年
5 何尧;基于半监督学习的中文文档分类技术研究[D];中南大学;2005年
6 郭飞;文本挖掘方法探讨及应用[D];成都理工大学;2006年
7 周昭涛;文本聚类分析效果评价及文本表示研究[D];中国科学院研究生院(计算技术研究所);2005年
8 王健;Web信息分类与自动摘要的研究[D];天津大学;2006年
9 张剑;基于概念的文本表示模型的研究[D];清华大学;2006年
10 李丽娟;XML文档结构相似度研究及在文档聚类中应用[D];山东大学;2007年
【二级引证文献】
中国期刊全文数据库 前10条
1 薛永大;;网页分类技术研究综述[J];电脑知识与技术;2012年25期
2 薛宾;王素格;张鹏;廖建;;基于情感倾向特征的文本情感聚类[J];电脑开发与应用;2013年02期
3 康健辉;吴渝;郑继明;;基于向量空间模型的改进音频分类算法[J];河南师范大学学报(自然科学版);2008年06期
4 王羡慧;陈俊英;覃征;张选平;;基于动态阻尼因子的动态阻尼仿射传播聚类[J];华中科技大学学报(自然科学版);2012年02期
5 于洪;储双双;;一种基于决策粗糙集的自动聚类方法[J];计算机科学;2011年01期
6 徐丽;丁世飞;;粒度聚类算法研究[J];计算机科学;2011年08期
7 金春霞;周海岩;;位置加权文本聚类算法[J];计算机工程与科学;2011年06期
8 刘路;李弼程;张先飞;;基于正反例训练的SVM命名实体关系抽取[J];计算机应用;2008年06期
9 李真;罗可;;融合粒子群和混合蛙跳的模糊C-均值算法[J];计算机应用;2011年05期
10 李坤;黄开枝;鲁国英;;部分信道状态信息下簇规模均匀的基站群快速分簇方案[J];计算机应用;2012年07期
中国重要会议论文全文数据库 前1条
1 王明文;付剑波;罗远胜;陆旭;;基于协同聚类的两阶段文本聚类方法研究[A];第四届全国信息检索与内容安全学术会议论文集(上)[C];2008年
中国博士学位论文全文数据库 前7条
1 皋军;智能识别中的降维新方法及其应用研究[D];江南大学;2010年
2 于秀娟;加工过程的质量异常预测与诊断方法研究[D];吉林大学;2011年
3 舒江波;面向中文信息处理的复句关系词自动标识研究[D];华中师范大学;2011年
4 潘俊;基于图的半监督学习及其应用研究[D];浙江大学;2011年
5 杨创新;基于机器学习的高性能中文文本分类研究[D];华南理工大学;2009年
6 齐妙;开放骨架磷酸铝合成反应预测研究[D];东北师范大学;2010年
7 彭菲菲;网络热点话题发现的关键技术研究[D];中国矿业大学(北京);2012年
中国硕士学位论文全文数据库 前10条
1 林楠;文本特征选择算法研究[D];辽宁师范大学;2010年
2 尹丽玲;基于人工免疫算法的Web文本挖掘研究[D];哈尔滨工程大学;2010年
3 王月;改进的模糊C-均值算法在文本聚类中的应用研究[D];辽宁工程技术大学;2009年
4 钟鸿鹏;基于时态信息的网页排序系统的研究与实现[D];华南理工大学;2010年
5 刘鹏;代建项目成功指标与成功因素研究[D];山东大学;2010年
6 戴霖;网络舆情信息挖掘关键技术研究与应用[D];浙江工商大学;2011年
7 齐锦;基于仿射传播聚类算法的词汇树生成研究[D];西北大学;2011年
8 赵颖;基于Ontology的Web文本聚类研究[D];西华大学;2011年
9 童忆莹;基于增量聚类和ReliefF的特征选择方法[D];西南大学;2011年
10 崔弘扬;面向学科的文献资源聚类系统研究及应用[D];华中师范大学;2011年
【二级参考文献】
中国期刊全文数据库 前1条
1 李凡,鲁明羽,陆玉昌;关于文本特征抽取新方法的研究[J];清华大学学报(自然科学版);2001年07期
【相似文献】
中国期刊全文数据库 前10条
1 龚静;曾建一;;文本聚类中的特征选择方法[J];吉首大学学报(自然科学版);2008年02期
2 任江涛;孙婧昊;施潇潇;黄焕宇;印鉴;;一种用于文本聚类的改进的K均值算法[J];计算机应用;2006年S1期
3 黄迎春;李晓晔;邓文新;;文本挖掘技术的研究[J];齐齐哈尔大学学报;2006年03期
4 毛嘉莉;;文本聚类中的特征降维方法研究[J];西华师范大学学报(自然科学版);2009年04期
5 王明文;付剑波;罗远胜;陆旭;;基于协同聚类的两阶段文本聚类方法[J];模式识别与人工智能;2009年06期
6 刘涛,吴功宜,陈正;一种高效的用于文本聚类的无监督特征选择算法[J];计算机研究与发展;2005年03期
7 辛颖梅;孙志挥;;一种文本无监督特征选择方法[J];软件导刊;2009年09期
8 况夯;罗军;;基于遗传FCM算法的文本聚类[J];计算机应用;2009年02期
9 曲超;潘晓衡;朱君;蔡少仲;胡天明;;基于单词超团的文本聚类方法[J];计算机工程;2011年11期
10 金春霞;周海岩;;位置加权文本聚类算法[J];计算机工程与科学;2011年06期
中国重要会议论文全文数据库 前10条
1 王明文;付剑波;罗远胜;陆旭;;基于协同聚类的两阶段文本聚类方法研究[A];第四届全国信息检索与内容安全学术会议论文集(上)[C];2008年
2 张猛;王大玲;于戈;;一种基于自动阈值发现的文本聚类方法[A];第二十一届中国数据库学术会议论文集(研究报告篇)[C];2004年
3 董婧灵;李芳;何婷婷;涂新辉;万剑;;基于LDA模型的文本聚类研究[A];中国计算语言学研究前沿进展(2009-2011)[C];2011年
4 李娜;曾向阳;;目标识别中的样本选择和特征选择联合算法研究[A];2009年西安-上海声学学术会议论文集[C];2009年
5 王乐;田李;贾焰;韩伟红;;一个并行的文本聚类混合算法[A];第二十四届中国数据库学术会议论文集(研究报告篇)[C];2007年
6 张永;陈思睿;杨志勇;;一种改进的文本分类方法的研究[A];第二届全国信息检索与内容安全学术会议(NCIRCS-2005)论文集[C];2005年
7 王强;曾向阳;王曙光;李娜;;主元分析在水下目标特征选择中的应用[A];中国声学学会水声学分会2011年全国水声学学术会议论文集[C];2011年
8 高砚军;徐华平;;基于窗口自适应灰度共生矩阵的SAR图像分类[A];第六届全国信息获取与处理学术会议论文集(1)[C];2008年
9 李晓丽;王彤;杜振龙;;基于粗糙集理论的流数据最优特征选择[A];第二十二届中国数据库学术会议论文集(研究报告篇)[C];2005年
10 徐燕;孙春明;王斌;李锦涛;;基于词条频率的特征选择算法研究[A];中文信息处理前沿进展——中国中文信息学会二十五周年学术会议论文集[C];2006年
中国重要报纸全文数据库 前10条
1 周晓娟;TD已过分水岭[N];通信产业报;2008年
2 中国科学院计算技术研究所 王 斌;内容为王[N];计算机世界;2004年
3 天相投顾 闻群王聃聃;选基金需考虑风险承受力[N];中国证券报;2007年
4 孙志伟;刘刚检查城防林建设[N];齐齐哈尔日报;2008年
5 王培森;从Web挖到竞争情报[N];中国计算机报;2003年
6 郑卫东;高产鹅选种方法和标准[N];中国畜牧兽医报;2007年
7 海通证券 娄静吴先兴;把握风险收益特征选择最适合自己的基金[N];上海证券报;2007年
8 张小东;促销之十大常见误区(一)[N];黑龙江经济报;2006年
9 华泰证券 吴璟;权证投资:只买对的,不买便宜的[N];上海证券报;2008年
10 ;现代军队与智能战争[N];中国计算机报;2005年
中国博士学位论文全文数据库 前10条
1 孟宪军;互联网文本聚类与检索技术研究[D];哈尔滨工业大学;2009年
2 徐森;文本聚类集成关键技术研究[D];哈尔滨工程大学;2010年
3 杨创新;基于机器学习的高性能中文文本分类研究[D];华南理工大学;2009年
4 刘健;面向信息检索的文本信息组织关键技术研究[D];国防科学技术大学;2009年
5 韦娜;基于内容图像检索关键技术研究[D];西北大学;2006年
6 张颖;基于群集智能模式识别方法的研究[D];大连理工大学;2008年
7 吕铁军;通信信号调制识别研究[D];电子科技大学;2000年
8 燕忠;基于蚁群优化算法的若干问题的研究[D];东南大学;2005年
9 陈晓云;文本挖掘若干关键技术研究[D];复旦大学;2005年
10 李勇明;尿沉渣图像自动识别算法的研究[D];重庆大学;2007年
中国硕士学位论文全文数据库 前10条
1 何晏成;基于近邻传播和凝聚层次的文本聚类方法[D];哈尔滨工业大学;2010年
2 胡吉祥;基于频繁模式的消息文本聚类研究[D];中国科学院研究生院(计算技术研究所);2006年
3 龚静;中文文本聚类中特征选择算法的研究[D];湘潭大学;2006年
4 张金;个性化信息检索系统中文本聚类的研究[D];东北师范大学;2010年
5 马玉静;基于群体智能的文本聚类技术研究[D];燕山大学;2009年
6 庞俊;基于确定话题和情感极性的博客文本聚类研究[D];武汉理工大学;2010年
7 李梅;改进的K均值算法在中文文本聚类中的研究[D];安徽大学;2010年
8 王飞;基于蚁群优化的模糊文本聚类算法研究[D];河南工业大学;2010年
9 赵颖;基于Ontology的Web文本聚类研究[D];西华大学;2011年
10 盛江涛;网络论坛话题发现与跟踪技术研究[D];哈尔滨工业大学;2010年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62791813
  • 010-62985026