首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到10条相似文献,搜索用时 15 毫秒
1.
面向不平衡数据集的一种精化Borderline-SMOTE方法   总被引:2,自引:0,他引:2  
合成少数类过采样技术(SMOTE)是一种被广泛使用的用来处理不平衡问题的过采样方法,SMOTE方法通过在少数类样本和它们的近邻间线性插值来实现过采样.Borderline-SMOTE方法在SMOTE方法的基础上进行了改进,只对少数类的边界样本进行过采样,从而改善样本的类别分布.通过进一步对边界样本加以区分,对不同的边界样本生成不同数目的合成样本,提出了面向不平衡数据集的一种精化Borderline-SMOTE方法(RB-SMOTE).仿真实验采用支持向量机作为分类器对几种过采样方法进行比较,实验中采用了10个不平衡数据集,它们的不平衡率从0.064 7到0.536 0.实验结果表明:RB-SMOTE方法能有效地改善不平衡数据集的类分布的不平衡性.  相似文献   

2.
采用少类样本合成过采样技术(SMOTE)与二叉树多类支持向量机(BTSVM)相结合的入侵检测算法来解决实际应用中经常遇到的类别不平衡的分类问题.该方法首先对不平衡类别的训练集使用BTSVM分类,然后对求出各分类器中的支持向量使用SMOTE方法进行向上采样,最后用不平衡类别的测试集在新的分类模型中进行测试.实验结果表明本算法能够有效地提高不平衡数据集的分类性能.  相似文献   

3.
张阳  张涛  陈锦  王禹  邹琪 《北京理工大学学报》2019,39(12):1258-1262
网络入侵检测已经广泛运用机器学习模型,但是研究者们多关注模型选择和参数优化,很少考虑数据不平衡的影响,往往会导致少数类入侵样本的检测效果较差.针对该问题,以SMOTE (synthetic minority oversampling technique)数据再平衡算法为研究重点,应用入侵检测数据集KDD99作为原始训练集,使用简单抽样和SMOTE算法生成再平衡训练集.采用多种机器学习模型分别在原始训练集和再平衡训练集进行5折交叉验证.实验结果表明,与原始训练集相比,使用再平衡训练集建模能够在不降低甚至提高多数类样本识别效果前提下,使少数类样本的识别准确率和召回率增强10%~20%.因此,SMOTE算法对不平衡样本下的网络入侵检测有显著的提升作用.   相似文献   

4.
针对SMOTE算法和随机森林可较好解决不平衡数据集的分类问题但对少数类样本分类效果还有待提高的问题,融合Canopy和K-means两种聚类算法,设计了C-K-SMOTE改进算法。先后利用Canopy算法进行快速近似聚类,再利用K-means算法进行精准聚类,得到精准聚类簇,最后利用SMOTE算法增加少数类样本数量,使数据趋于平衡。选取公开数据集KEEL(knowledge extraction on evolutionary learning)数据库中的不平衡数据集,结合随机森林分类模型进行了实验验证,实验表明C-K-SMOTE算法可有效平衡不平衡数据集。  相似文献   

5.
工作集的规模很大时,支持向量机的学习过程需要占用大量的内存,寻优速度很慢.文中提出一种基于支持向量聚类的工作集优选方法,分别最优化每一类样本集获取支持向量,利用支持向量几何分布特性,筛选后构造工作集.针对样本集不平衡情况,根据每一类支持向量个数对惩罚系数加权的加权优选法解决最优分离超平面偏移问题.该算法所选工作集具有代表性,能大幅度降低学习代价,同时具有较高的分类效率.  相似文献   

6.
针对现有的基于机器学习的入侵检测系统对类不平衡数据检测准确率低的问题,提出一种基于条件Wasserstein生成对抗网络(CWGAN)和深度神经网络(DNN)的入侵检测(CWGAN-DNN).CWGAN-DN N通过生成样本来改善数据集的类不平衡问题,提升对少数类和未知类的检测效率.首先,通过变分高斯混合模型(VGM)对原始数据中的连续特征进行处理,将连续特征的高斯混合分布进行分解;然后利用CWGAN学习预处理后数据的分布并生成新的少数类数据样本、平衡训练数据集;最后,利用平衡训练集对DNN进行训练,将训练得到的DNN用于入侵检测.在NSL-KDD数据集上进行的实验结果表明:利用CWGAN生成的数据进行训练,DNN的分类准确率和F1分数提升了5%,AUC下降了2%;与其他类均衡方法相比,CWGAN-DNN的准确率至少提升了3%、F1分数和AUC提升了1%.  相似文献   

7.
针对不平衡数据集数据分布不均匀及边界模糊的特点,提出基于局部密度改进的SVM不平衡数据集分类算法.该算法先将多数类划分成多个子类,并依据子类内每个样本的局部密度选出边界区域、靠近边界区域的与少数类数目相等的样本,与少数类完成SVM初始分类;用所得的支持向量机和剩余的多数类样本对初始分类器进行迭代优化.结果表明,与WSVM,ALSMOTE-SVM和基本SVM算法相比,该算法分类效果良好,能有效改进SVM算法在分布不均匀及边界模糊数据集上的分类性能.  相似文献   

8.
针对不平衡数据集的低分类准确性,提出基于蚁群聚类改进的SMOTE不平衡数据过采样算法ACC-SMOTE。一方面利用改进的蚁群聚类算法将少数类样本划分为不同的子簇,充分考虑类间与类内数据的不平衡,根据子簇所占样本的比例运用SMOTE算法进行过采样,从而降低类内数据的不平衡度;另一方面对过采样后的少数类样本采用Tomek Links数据清理技术进行及时修正,清除数据集中的噪声和抽样方法产生的重叠样例,从而保证合成样本的质量。本文所用训练数据集和测试数据集均为UCI数据集。实验结果表明本算法可以明显提高不平衡数据集的分类精度,从而提高分类器的分类性能。  相似文献   

9.
提出基于支持向量机的不平衡样本集分类算法,以支持向量机为基础,利用重采样技术及特征子空间等相关理论,通过分层抽样方法和重采样技术,分别对不平衡数据集的样本底层特征和样本数量进行平衡,在不同数据集上进行实验,实验表明该方法能有效提高不平衡数据分类的准确度.  相似文献   

10.
提出了基于惩罚约束问题的群体智能聚类算法PCSI,不必穷尽搜索样本集,利用粒子群算法的优化搜索机制在数据集中有指导地随机搜索聚类中心向量,能够以较小的计算代价确定样本集的类别数.有约束优化过程的罚函数为两部分之和:①目标函数,各样本与其类别中心的均方误差;②自适应惩罚项,即数据集的边界作为粒子群移动的约束条件,对约束违反程度进行惩罚.为降低不平衡数据集的影响,按照数据集的方差和模糊高斯函数,将样本到其类别中心的距离进行模糊映射,归一化到[0,1]区间.粒子群优化方法免去了传统方法的求导计算.聚类IRIS数据集和Reuters-21578文档集以验证算法的有效性,对大规模数据聚类有明显优势.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号