收藏本站
收藏 | 投稿 | 手机打开
二维码
手机客户端打开本文

基于聚类融合和过采样的不平衡金融模型研究

叶枫  朱彩霞  
【摘要】:近年来,如何提高不平衡数据分类精度的问题受到广泛关注。对于不平衡数据问题主要从数据集和算法两方面来解决。研究提出一种基于k-means++聚类算法和过采样的堆叠算法(K-SMO-Stacking)。在Stacking集成算法基础上将k-means++聚类算法应用到分类过程当中,形成新的少数类和多数类,用过采样方法生成更多更密集的少数类样本,均衡数据集后再进行回归训练。实验在多份金融不平衡数据集上进行验证,结合AUC、F1-score和G-mean主流评价指标,结果显示该算法在不平衡金融数据中的分类性能有显著提高。

知网文化
【相似文献】
中国期刊全文数据库 前13条
1 于本成;鲍宇;曹天杰;朱作付;;面向大型数据集的聚类算法的优化与融合[J];计算机工程与设计;2014年05期
2 杜淑颖;;基于大型数据集的聚类算法研究[J];软件;2016年01期
3 邢春燕;;大规模数据集聚类算法的研究进展分析[J];花炮科技与市场;2020年02期
4 李淼;龙云利;李骏;安玮;周一宇;;采用多伯努利滤波器的过采样点目标检测前跟踪[J];光学精密工程;2015年12期
5 张菲菲;王黎明;柴玉梅;;一种改进过采样的不平衡数据集成分类算法[J];小型微型计算机系统;2018年10期
6 申彦;宋顺林;朱玉全;;一种基于半监督的大规模数据集聚类算法[J];南京大学学报(自然科学版);2011年04期
7 张文昱;;时-空过采样系统对点目标成像仿真与验证(英文)[J];红外与激光工程;2015年10期
8 田夫蓉;白新宇;;基于“聚类-过采样”方法的肿瘤免疫亚型分类研究[J];现代计算机;2022年01期
9 蒋盛益;苗邦;王连喜;;面向不平衡数据的特征加权聚类算法[J];小型微型计算机系统;2013年08期
10 沈怡秀;马福民;曹杰;;基于模糊优势关系的粗糙聚类定性组合算法[J];计算机工程;2019年08期
11 王妍;王凤桐;王俊陆;宋宝燕;石展;;基于泛化中心聚类的不完备数据集填补方法[J];小型微型计算机系统;2017年09期
12 张朝鑫;;大规模数据集聚类方法及其应用研究[J];电子世界;2014年14期
13 苏加强;丁柳云;;基于R的过采样方法在非平衡数据中的应用[J];常州工学院学报;2012年06期
中国重要会议论文全文数据库 前20条
1 郭景峰;杜京;马倩;邹晓红;;一种基于数据集性质的快速等差模式聚类算法[A];第二十五届中国数据库学术会议论文集(二)[C];2008年
2 刘通;张宇献;;基于加权平均数的模糊聚类有效性函数[A];第十届沈阳科学学术年会论文集(信息科学与工程技术分册)[C];2013年
3 邓聪;傅少荣;高嘉锜;潘嘉辉;;基于不完备数据集近邻聚类的缺失用电信息填补算法[A];福建省电机工程学会2020年学术年会获奖论文集(下册)[C];2021年
4 卢功林;葛俏;王玉娟;谈世磊;曹红伟;卢志鹏;;基于深度学习的不停车自动超载检测方法[A];2020中国自动化大会(CAC2020)论文集[C];2020年
5 王羽;姜晓夏;陆辰;王振宇;王珩;吴振锋;;军事机器阅读理解数据集构建与评估[A];2019第七届中国指挥控制大会论文集[C];2019年
6 曹露燕;蒋晓云;孟凡荣;;基于数值型和分类型混合属性数据集的聚类算法研究[A];2006“数学技术应用科学”[C];2006年
7 陈德华;解维;李悦;;面向大规模图数据的分布式并行聚类算法研究[A];第29届中国数据库学术会议论文集(B辑)(NDBC2012)[C];2012年
8 缪国宇;刘洪鹏;苏文学;刘荣生;赵相东;;基于数据仓库的企业指标分析系统[A];中国计量协会冶金分会2012年会暨能源计量与节能降耗经验交流会论文集[C];2012年
9 刘彤;孙永香;张振洪;;一种有效的基于密度和层次的聚类算法[A];2007'仪表,自动化及先进集成技术大会论文集(一)[C];2007年
10 娄冬梅;陈明;朱有娜;;一种基于密度的无参数聚类算法[A];第二十三届中国数据库学术会议论文集(研究报告篇)[C];2006年
11 赖桃桃;冯少荣;张东站;;一种基于划分和密度的快速聚类算法[A];第二十五届中国数据库学术会议论文集(一)[C];2008年
12 吴晓璇;倪志伟;倪丽萍;;基于分形维数的选择性聚类融合算法[A];中国系统工程学会第十八届学术年会论文集——A05系统工程理论应用与创新[C];2014年
13 赵宇海;印莹;王国仁;许光宇;;挖掘微阵列数据集中的最大局部保守基因聚类[A];第二十三届中国数据库学术会议论文集(研究报告篇)[C];2006年
14 魏昕路;洪志令;姜青山;;一种基于样本缩减策略的新窗口式聚类算法[A];第二十四届中国数据库学术会议论文集(研究报告篇)[C];2007年
15 田捷;;三维医学影像数据集处理的集成化平台[A];2003年全国医学影像技术学术会议论文汇编[C];2003年
16 郝芸;田野;康辉;;分布式聚类算法的研究[A];第九届中国通信学会学术年会论文集[C];2012年
17 范明;魏芳;;挖掘基本显露模式用于分类[A];第二十一届中国数据库学术会议论文集(技术报告篇)[C];2004年
18 刘洋;江志纲;丁增喜;王大玲;鲍玉斌;于戈;;一种基于图的聚类算法GB-Cluster[A];第十九届全国数据库学术会议论文集(技术报告篇)[C];2002年
19 孙焕良;刘俊岭;于戈;鲍玉斌;王大玲;;一种基于CD-Tree的高效聚类算法[A];第二十三届中国数据库学术会议论文集(研究报告篇)[C];2006年
20 殷志君;周敏子;王轶彤;周皓峰;汪卫;施伯乐;;GC-Clustering:基于描述长度的自适应的聚类算法[A];第二十三届中国数据库学术会议论文集(技术报告篇)[C];2006年
中国博士学位论文全文数据库 前20条
1 钱鹏江;大规模数据集聚类方法研究及应用[D];江南大学;2011年
2 陈梅;面向复杂数据的聚类算法研究[D];兰州大学;2016年
3 刘翔宇;基因表达分析中双聚类算法研究[D];山东大学;2021年
4 申彦;大规模数据集高效数据挖掘算法研究[D];江苏大学;2013年
5 马飞;复杂场景下的行人重识别关键技术研究[D];武汉大学;2019年
6 刘皓;基于深度学习的行人再识别问题研究[D];合肥工业大学;2017年
7 王建培;聚类有效性分析及其在电学层析成像中的应用[D];天津大学;2017年
8 杨勋;跨视域行人再识别若干问题研究[D];合肥工业大学;2017年
9 姜磊;混合演化聚类算法研究及其应用[D];武汉大学;2012年
10 王振佳;基于基因表达数据的双聚类算法研究[D];山东大学;2016年
11 王骏;无监督学习中聚类和阈值分割新方法研究[D];南京理工大学;2011年
12 冀进朝;针对多维混合属性数据的聚类算法研究[D];吉林大学;2013年
13 陈加顺;海洋环境下聚类算法的研究[D];南京航空航天大学;2014年
14 万淼;基于群智能和随机索引的网络聚类算法研究[D];北京邮电大学;2011年
15 朱红;粒度聚类方法研究[D];中国矿业大学;2013年
16 冯进玫;大规模数据聚类分析方法研究[D];哈尔滨工程大学;2015年
17 陈树;聚类算法模型的研究及应用[D];江南大学;2007年
18 张强;聚类算法的维度分析[D];天津大学;2007年
19 吴国清;科学计算时变数据集的数据挖掘算法研究[D];中国工程物理研究院;2009年
20 李龙龙;半监督聚类算法研究及植物叶片识别应用[D];西北农林科技大学;2017年
中国硕士学位论文全文数据库 前20条
1 周晓敏;面向非平衡数据的过采样方法研究[D];山西大学;2020年
2 周颖;基于生成式模型的不平衡分类算法研究[D];哈尔滨工业大学;2019年
3 周鹏;面向不平衡数据的分类算法研究[D];山东师范大学;2020年
4 陈斌;SMOTE不平衡数据过采样算法的改进与应用[D];广西大学;2015年
5 王宇莹;基于相对密度的非均匀数据集聚类方法[D];西安电子科技大学;2021年
6 邵珠全;高维类别数据集的粗糙聚类算法的研究与应用[D];大连海事大学;2017年
7 肖越;基于过采样的非平衡入侵数据检测研究[D];辽宁工程技术大学;2019年
8 王亮;不平衡数据集分类方法的研究[D];西安电子科技大学;2020年
9 盛开元;聚类算法在大规模数据集上的应用研究[D];江南大学;2014年
10 王勇;基于维诺图的不均衡数据集分类研究[D];重庆大学;2017年
11 高金颖;基于超平面划分的聚类方法研究[D];北京工业大学;2020年
12 冷欣;不平衡数据的集成欠采样方法研究[D];哈尔滨理工大学;2021年
13 张丁文;基于云计算的取证数据集聚类方法的分析与实现[D];吉林大学;2015年
14 陈西伟;基于谱方法的聚类算法及其应用的研究[D];兰州大学;2014年
15 邴兆虹;区间估计的不完整数据集混杂聚类算法研究[D];辽宁大学;2013年
16 肖雪平;面向大规模数据集的自适应聚类算法并行化研究[D];曲阜师范大学;2016年
17 张天翼;非平衡数据集过采样算法研究[D];武汉大学;2020年
18 刁克静;面向不平衡数据集的密度聚类算法研究[D];山东科技大学;2019年
19 余岳林;基于相对位置视点的数据集精简算法研究[D];浙江大学;2013年
20 韦堂洪;基于数据场的大数据集聚类方法的研究[D];贵州大学;2021年
中国重要报纸全文数据库 前4条
1 金水高 刘丽华 陶庄;基本数据集标准新进展[N];计算机世界;2006年
2 本报记者 刘霞;AI助力抗“疫” 美发布新冠病毒数据集[N];科技日报;2020年
3 记者 胡珉琦;最大零售场景检测计数联合任务数据集发布[N];中国科学报;2020年
4 本报记者 王琨月;数据集中更要管理集中[N];网络世界;2008年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62982499
  • 010-62783978