首页 | 本学科首页   官方微博 | 高级检索  
     检索      

基于最大平衡度的自适应随机抽样算法
引用本文:董立岩,王越群,李永丽,朱琪.基于最大平衡度的自适应随机抽样算法[J].东北大学学报(自然科学版),2018,39(6):792-796.
作者姓名:董立岩  王越群  李永丽  朱琪
作者单位:(1. 吉林大学 计算机科学与技术学院, 吉林 长春130012; 2. 东北师范大学 计算机科学与信息技术学院, 吉林 长春130117)
基金项目:国家自然科学基金资助项目(61272209).国家自然科学基金资助项目(51171041).
摘    要:针对分类算法在非平衡数据集的情况下分类性能不理想的问题,总结了常见的数据平衡化方法,包括改造数据集与改进算法,提出一种全新的基于最大平衡度的自适应随机抽样算法,进一步优化了随机森林算法的分类效果.将其应用在随机森林算法的数据预处理阶段,并通过实验证明了该随机抽样方法的有效性,在合理的整体精度范围内能够较好地处理非平衡数据.产生的新数据比较拟合初始数据,能够提高分类器处理非平衡数据的能力.

关 键 词:非平衡数据集  最大平衡度  随机抽样  随机森林  数据预处理  

Adaptive Random Sampling Algorithm Based on the Balance Maximization
DONG Li-yan,WANG Yue-qun,LI Yong-li,ZHU Qi.Adaptive Random Sampling Algorithm Based on the Balance Maximization[J].Journal of Northeastern University(Natural Science),2018,39(6):792-796.
Authors:DONG Li-yan  WANG Yue-qun  LI Yong-li  ZHU Qi
Institution:1. College of Computer Science and Technology, Jilin University, Changchun 130012, China; 2. School of Computer Science and Technology, Northeast Normal University, Changchun 130117, China.
Abstract:The problem on the classification algorithm of imbalanced datasets was analyzed. Common methods of balancing data, including improvement of datasets and the improved algorithm, were summarized. Then a novel algorithm called adaptive random sampling algorithm was put forward based on balance maximization. The classification effect of random forest algorithm was further optimized. Experiments show that the proposed algorithm performs well with the imbalanced data, the new data are fitted with the original data, and it could improve the ability of classifier to deal with the imbalanced data.
Keywords:imbalanced dataset  balance maximization  random sampling  random forest  data preprocessing  
本文献已被 CNKI 等数据库收录!
点击此处可从《东北大学学报(自然科学版)》浏览原始摘要信息
点击此处可从《东北大学学报(自然科学版)》下载免费的PDF全文
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号