基于DBSCAN聚类分解和过采样的随机森林不平衡数据分类算法 |
| |
作者姓名: | 赵小强 姚青磊 |
| |
作者单位: | 1.兰州理工大学 电气工程与信息工程学院, 甘肃 兰州 730050; 2.兰州理工大学 甘肃省工业过程先进控制重点实验室, 甘肃 兰州 730050; 3.兰州理工大学 国家级电气与控制工程实验教学中心, 甘肃 兰州 730050 |
| |
基金项目: | 国家自然科学基金(62263021),甘肃省高校产业支撑计划项目(2023CYZC-24),甘肃省科技计划资助项目(21YF5GA072) |
| |
摘 要: | 针对传统方法在不平衡数据分类时易导致生成假样本数量多或数据丢失等问题,提出了一种基于DBSCAN聚类分解和过采样的随机森林不平衡数据分类算法.首先,将基于密度的DBSCAN聚类分解算法应用于不平衡数据集的多数类,在没有数据丢失的情况下降低了多数类样本的优势;其次,通过Borderline-SMOTE算法对少数类进行过采样,增加了少数类样本的数量,从而得到更加平衡的数据集,有效地解决了过采样时生成过多假样本而导致过拟合的问题,同时避免了欠采样方法造成数据丢失的问题;最后,在聚类分解和过采样算法的前提下,验证了随机森林比SVM、Adaboost、Bagging、XGBoost有更好的效果.在KEEL公用数据集上与其他流行算法进行实验比较,结果显示该算法有效地提高了不平衡数据的分类性能.
|
关 键 词: | 不平衡数据 分类算法 DBSCAN 随机森林 |
收稿时间: | 2021-12-31 |
|
| 点击此处可从《兰州理工大学学报》浏览原始摘要信息 |
|
点击此处可从《兰州理工大学学报》下载全文 |
|