收藏本站
《软件学报》 2008年03期
收藏 | 投稿 | 手机打开
二维码
手机客户端打开本文

基于Tri-Training和数据剪辑的半监督聚类算法

邓超  郭茂祖  
【摘要】:提出一种半监督聚类算法,该算法在用seeds集初始化聚类中心前,利用半监督分类方法Tri-training的迭代训练过程对无标记数据进行标记,并加入seeds集以扩大规模;同时,在Tri-training训练过程中结合基于最近邻规则的Depuration数据剪辑技术对seeds集扩大过程中产生的误标记噪声数据进行修正、净化,以提高seeds集质量.实验结果表明,所提出的基于Tri-training和数据剪辑的DE-Tri-training半监督聚类新算法能够有效改善seeds集对聚类中心的初始化效果,提高聚类性能.

【共引文献】
中国期刊全文数据库 前7条
1 史会峰,卢艳霞;基于多项式分布模型的Web文本分类[J];华北电力大学学报;2003年06期
2 任美睿;郭龙江;李金宝;;基于改进的向量空间模型的自动文本分类[J];哈尔滨商业大学学报(自然科学版);2006年01期
3 陈文亮,朱慕华,朱靖波,姚天顺;基于Bootstrapping的文本分类模型[J];中文信息学报;2005年02期
4 郭炜强,文军,文贵华;基于贝叶斯模型的专利分类[J];计算机工程与设计;2005年08期
5 罗海飞;吴刚;杨金生;;基于贝叶斯的文本分类方法[J];计算机工程与设计;2006年24期
6 彭雅,林亚平,陈治平;TFIDF_-NB协同训练算法[J];小型微型计算机系统;2004年12期
7 胡荣,罗庆云;kNN算法在文本分类中的改进[J];南华大学学报(自然科学版);2005年03期
中国重要会议论文全文数据库 前6条
1 朱慕华;陈文亮;朱靖波;;词聚类在文本分类中的应用[A];第二届全国学生计算语言学研讨会论文集[C];2004年
2 石志伟;吴功宜;;改善朴素贝叶斯在文本分类中的稳定性[A];NCIRCS2004第一届全国信息检索与内容安全学术会议论文集[C];2004年
3 陈宁昱;周雅倩;黄萱菁;吴立德;;利用未标注语料改进实体名识别性能[A];NCIRCS2004第一届全国信息检索与内容安全学术会议论文集[C];2004年
4 Du-Seong Chang;Key-Sun Choi;;Causal Relation Extraction Using Cue Phrase and Lexical Pair Probabilities[A];Proceedings of the Conference First International Joint Conference on Natural Language Processing[C];2004年
5 Karl-Michael Schneider;;Learning to Filter Junk E-Mail from Positive and Unlabeled Examples[A];Proceedings of the Conference First International Joint Conference on Natural Language Processing[C];2004年
6 Hiroya Takamura;Manabu Okumura;;A Comparative Study on the Use of Labeled and Unlabeled Data for Large Margin Classifiers[A];Proceedings of the Conference First International Joint Conference on Natural Language Processing[C];2004年
中国博士学位论文全文数据库 前10条
1 陈治平;智能搜索引擎理论与应用研究[D];湖南大学;2003年
2 叶航军;面向大规模图像库的索引和检索机制研究[D];清华大学;2003年
3 杨小兵;聚类分析中若干关键技术的研究[D];浙江大学;2005年
4 谭松波;高性能文本分类算法研究[D];中国科学院研究生院(计算技术研究所);2006年
5 古平;基于贝叶斯模型的文档分类及相关技术研究[D];重庆大学;2006年
6 刘勇;基于粒度计算的知识发现研究及其应用[D];浙江大学;2006年
7 刘光远;基于数据挖掘的移动通信用户流失研究[D];吉林大学;2007年
8 胡静;机器学习及其神经网络分类器优化设计[D];合肥工业大学;2007年
9 尹清波;基于机器学习的入侵检测方法研究[D];哈尔滨工程大学;2007年
10 刘伟;图像检索中若干问题的研究[D];浙江大学;2007年
中国硕士学位论文全文数据库 前10条
1 孙丽华;中文文本自动分类的研究[D];哈尔滨工程大学;2002年
2 刘钢;基于神经网络的文本分类系统NNTCS的设计和实现[D];中国科学院研究生院(软件研究所);2003年
3 王晓峰;基于进化半监督式模糊聚类算法的入侵检测[D];西安电子科技大学;2005年
4 全德;基于潜在语义索引的文本分类技术的研究[D];东北大学;2005年
5 车志军;人工智能在搜索引擎资源获取中的应用[D];浙江大学;2006年
6 于书翰;基于网页自动分类的搜索引擎研究[D];长春理工大学;2004年
7 刘里;中文文本分类中特征描述及分类器构造方法研究[D];重庆大学;2006年
8 王春媛;基于内容的图像检索反馈算法研究[D];哈尔滨工业大学;2006年
9 邹汉斌;支持向量机在文本分类中的应用[D];江南大学;2006年
10 丁琼;基于向量空间模型的文本自动分类系统的研究与实现[D];同济大学;2007年
【同被引文献】
中国期刊全文数据库 前10条
1 李蕾;周延泉;王菁华;;基于全信息的中文信息抽取系统及应用[J];北京邮电大学学报;2005年06期
2 朱良,谈香如;一种用决策树对XML文档进行分类的方法[J];长沙电力学院学报(自然科学版);2004年02期
3 张晓辉,李莹,王华勇,赵宏;应用特征聚合进行中文文本分类的改进KNN算法[J];东北大学学报(自然科学版);2003年03期
4 罗敏,王丽娜,张焕国;基于无监督聚类的入侵检测方法[J];电子学报;2003年11期
5 白素琴,惠长坤,吴小俊,王士同;一种基于遗传算法的模糊聚类算法及其与FCM算法的结合[J];华东船舶工业学院学报(自然科学版);2001年06期
6 郭海湘,诸克军;基于模糊c-均值算法和遗传算法的新聚类方法[J];华南理工大学学报(自然科学版);2004年10期
7 郭艳华,周昌乐;一种汉语语句依存关系网分析策略与生成算法研究[J];浙江大学学报(理学版);2000年06期
8 王继成,潘金贵,张福炎;Web文本挖掘技术研究[J];计算机研究与发展;2000年05期
9 孙春葵,李蕾,杨晓兰,钟义信;基于知识的文本摘要系统研究与实现[J];计算机研究与发展;2000年07期
10 陆玉昌,鲁明羽,李凡,周立柱;向量空间法中单词权重函数的分析和构造[J];计算机研究与发展;2002年10期
中国重要会议论文全文数据库 前3条
1 王洋;秦兵;郑实福;;句子相似度计算在FAQ中的应用[A];第一届学生计算语言学研讨会论文集[C];2002年
2 赵妍妍;王啸吟;秦兵;车万翔;刘挺;;中文事件抽取中事件类别的自动识别[A];第三届学生计算语言学研讨会论文集[C];2006年
3 钟涛;陈群秀;;基于层式有限状态自动机的灾难事件抽取系统[A];第三届全国信息检索与内容安全学术会议论文集[C];2007年
中国博士学位论文全文数据库 前5条
1 干红华;基于事件的因果关系可计算化分析研究[D];浙江大学;2003年
2 杨尔弘;突发事件信息提取研究[D];北京语言大学;2005年
3 古平;基于贝叶斯模型的文档分类及相关技术研究[D];重庆大学;2006年
4 刘天羽;基于特征选择技术的集成学习方法及其应用研究[D];上海大学;2007年
5 罗会兰;聚类集成关键技术研究[D];浙江大学;2007年
中国硕士学位论文全文数据库 前9条
1 王晓峰;基于进化半监督式模糊聚类算法的入侵检测[D];西安电子科技大学;2005年
2 何尧;基于半监督学习的中文文档分类技术研究[D];中南大学;2005年
3 李嵬;基于度的半监督聚类算法及其在集装箱港口出口箱量短期预测中的应用[D];华东师范大学;2006年
4 代亮;基于支持向量机的文本分类问题研究[D];大连海事大学;2007年
5 余俊英;文本分类中特征选择方法的研究[D];江西师范大学;2007年
6 倪茂树;基于语义理解的观点评论挖掘研究[D];大连理工大学;2007年
7 冯礼;基于事件框架的突发事件信息抽取[D];上海交通大学;2008年
8 邸锦;基于支持向量机的文本分类问题的研究[D];北京交通大学;2008年
9 熊浩勇;基于SVM的中文文本分类算法研究与实现[D];武汉理工大学;2008年
【相似文献】
中国期刊全文数据库 前10条
1 李雪梅;王立宏;宋宜斌;;一种混合约束的半监督聚类算法[J];模式识别与人工智能;2011年03期
2 程慧杰;卜宪庚;;基于基因限制信息的特征权值优化研究[J];计算机与数字工程;2011年07期
3 申彦;宋顺林;朱玉全;;一种基于半监督的大规模数据集聚类算法[J];南京大学学报(自然科学版);2011年04期
4 ;[J];;年期
5 ;[J];;年期
6 ;[J];;年期
7 ;[J];;年期
8 ;[J];;年期
9 ;[J];;年期
10 ;[J];;年期
中国重要会议论文全文数据库 前1条
1 芮晓光;袁平波;何芳;俞能海;;一种新颖的自动图像标注方法[A];第十三届全国图象图形学学术会议论文集[C];2006年
中国博士学位论文全文数据库 前3条
1 张亮;基于机器学习的信息过滤和信息检索的模型和算法研究[D];天津大学;2007年
2 胡佳妮;文本挖掘中若干关键问题的研究[D];北京邮电大学;2008年
3 张峰;基于统计模式识别发音错误自动检测的研究[D];中国科学技术大学;2009年
中国硕士学位论文全文数据库 前5条
1 罗晓清;半监督聚类算法及应用的研究[D];江南大学;2007年
2 王从胜;基于支持向量机的数据挖掘应用研究[D];江南大学;2008年
3 金骏;半监督的聚类和降维研究及应用[D];南京航空航天大学;2007年
4 黄海超;基于领域知识的半监督聚类算法研究[D];北京化工大学;2009年
5 李嵬;基于度的半监督聚类算法及其在集装箱港口出口箱量短期预测中的应用[D];华东师范大学;2006年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62791813
  • 010-62985026