收藏本站
收藏 | 投稿 | 手机打开
二维码
手机客户端打开本文

一种新的不平衡数据学习算法PCBoost

李雄飞  李军  董元方  屈成伟  
【摘要】:现实世界中广泛存在不平衡数据,其分类问题是机器学习研究中的一个热点.多数传统分类算法假定类分布平衡或误分类代价均衡,在处理不平衡数据时,效果不够理想.文中提出一种不平衡数据分类算法-PCBoost.算法以信息增益率为分裂准则构建决策树,作为弱分类器.在每次迭代初始,利用数据合成方法添加合成的少数类样例,平衡训练信息;在子分类器形成后,修正"扰动",删除未被正确分类的合成样例.文中讨论了数据合成方法,给出了训练误差界的理论分析,并分析了集成学习参数的选择.实验结果表明,PCBoost算法具有处理不平衡数据分类问题的优势.

知网文化
【相似文献】
中国期刊全文数据库 前20条
1 李月芳,孙俊;数据挖掘及其在电网故障诊断中的应用[J];农机化研究;2003年04期
2 赵明清;蒋昌俊;陶树平;;基于等价相异度矩阵的聚类[J];计算机科学;2004年07期
3 王恬宇,陈雪强;基于数据挖掘的分步式定性推理[J];情报杂志;2005年01期
4 陈刚;刘发升;;基于BP神经网络的数据挖掘方法[J];计算机与现代化;2006年10期
5 方风波;;关联规则挖掘技术发展及应用[J];中小企业科技;2007年06期
6 谭永红;;数据挖掘中关联规则的小生境遗传算法[J];安徽农业科学;2007年24期
7 崔博;王东方;刘海英;;基于改进型遗传算法的数据挖掘系统设计[J];唐山师范学院学报;2007年05期
8 瞿超;刘鸿雁;;基于Agent的频繁模式挖掘[J];微计算机信息;2007年33期
9 桂克锋;顾卫东;;基于并行遗传算法的一种关联规则挖掘[J];广西轻工业;2008年01期
10 刘春阳;;利用ID3算法建立决策树的研究[J];福建电脑;2008年07期
11 童翔威;周铁军;;基于RBF神经网络的数据挖掘的研究[J];硅谷;2009年12期
12 陈双飞;田富鹏;;数据挖掘与人工智能技术[J];硅谷;2009年16期
13 姜秋艳;;遗传算法在WEB日志挖掘中的应用[J];科技信息;2009年31期
14 蓝玉琼;计算机集成制造系统的概念、发展及结构改进[J];昆明理工大学学报(理工版);2002年05期
15 李福堂,凌峰,张秋文;空间数据挖掘及其在3S集成系统的应用研究[J];微机发展;2005年02期
16 李茂宽,关键;基于模糊C均值的支持向量机数据分类识别[J];系统仿真学报;2005年07期
17 谭建中;浅析实施数据挖掘项目需要考虑的问题[J];大众科技;2005年09期
18 邓春红;方群;;数据挖掘中神经网络技术的应用探讨[J];滁州学院学报;2006年03期
19 张红莉;黄守明;;多媒体挖掘技术研究[J];铜陵学院学报;2006年03期
20 肖海涛;许南山;;决策树在化工企业生产平稳度分析中的应用[J];计算机与现代化;2006年09期
中国重要会议论文全文数据库 前6条
1 林佳烨;;云计算在电信行业数据分析领域的应用[A];广东通信2010青年论坛优秀论文集[C];2010年
2 汪思源;王栋;邵诚;张润彤;;供热锅炉控制决策管理系统的研究[A];第二十六届中国控制会议论文集[C];2007年
3 陈庄;阿里·蒙特瑟密;;一种挖掘认知图的新方法[A];第二十六届中国控制会议论文集[C];2007年
4 申锦标;;一种新颖的概念格构造算法[A];全国第20届计算机技术与应用学术会议(CACIS·2009)暨全国第1届安全关键技术与应用学术会议论文集(上册)[C];2009年
5 唐益明;路强;刘晓平;;基于三I方法或CRI方法的模糊系统及其响应性能[A];全国第20届计算机技术与应用学术会议(CACIS·2009)暨全国第1届安全关键技术与应用学术会议论文集(上册)[C];2009年
6 徐怡;李龙澍;李学俊;;扩充的基于集对联系度的粗糙集模型[A];第二十六届中国控制会议论文集[C];2007年
中国博士学位论文全文数据库 前10条
1 封毅;中医药知识发现可靠性研究[D];浙江大学;2008年
2 李兴森;智能知识及其管理模式研究[D];中国科学院研究生院;2008年
3 黄解军;贝叶斯网络结构学习及其在数据挖掘中的应用研究[D];武汉大学;2005年
4 邱桃荣;面向本体学习的粒计算方法研究[D];北京交通大学;2009年
5 黄静华;支持向量机算法研究及在气象数据挖掘中的应用[D];中国矿业大学(北京);2011年
6 罗永红;无缝运输信息网格的若干关键技术研究[D];中南大学;2011年
7 张国江;软计算方法和数据挖掘理论在电力系统负荷预测中的应用[D];浙江大学;2002年
8 何友全;数据挖掘方法及其在电力系统故障诊断中的应用研究[D];西南交通大学;2004年
9 金胜男;基于多层关联规则的概念分层知识库中知识发现的研究[D];天津大学;2006年
10 黄文清;电能质量扰动在线监测方法研究[D];湖南大学;2007年
中国硕士学位论文全文数据库 前10条
1 杨灿;数据挖掘的模糊系统实现[D];浙江大学;2005年
2 赵亚梅;数据挖掘在工程数据分析中的应用研究[D];东华大学;2005年
3 杨峰;基于决策树的出生缺陷预警系统研究与实现[D];东北师范大学;2006年
4 刘坤朋;数据挖掘中聚类算法的研究[D];长沙理工大学;2010年
5 姜国强;基于最近邻聚类的连续属性离散化算法研究[D];郑州大学;2009年
6 陈一飞;数据挖掘和神经网络在生产成本决策系统中的应用研究[D];南京航空航天大学;2003年
7 罗妤;聚类数据挖掘在商场中的应用及K-means聚类算法改进研究[D];重庆大学;2005年
8 张雷;多层次分布式智能决策支持系统及应用研究[D];西北工业大学;2006年
9 刘颖;基于物元的可拓遗传算法[D];大连海事大学;2005年
10 崔克彬;分类分析的研究与实现[D];华北电力大学(河北);2005年
中国重要报纸全文数据库 前7条
1 特约撰稿周洪波;物联网应用寻求“支撑面”[N];计算机世界;2010年
2 本报记者 刘丽丽;我是机器人[N];计算机世界;2011年
3 杨秀 柯晖;我校成功开发大型公共建筑能耗实时统计分析管理系统[N];新清华;2007年
4 本报记者 许泳;盘活海量卫星遥感数据[N];计算机世界;2009年
5 丁常彦;商业智能成为医疗机构“神经系统”[N];中国医药报;2010年
6 邱云龙 闫春龙;宣钢与北科大合作开发烧结优化配矿专家系统[N];世界金属导报;2011年
7 主持人:本报记者 操秀英;计算机怎样读懂人类情感[N];科技日报;2011年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62982499
  • 010-62783978