首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 203 毫秒
1.
针对不平衡数据集的低分类准确性,提出基于蚁群聚类改进的SMOTE不平衡数据过采样算法ACC-SMOTE。一方面利用改进的蚁群聚类算法将少数类样本划分为不同的子簇,充分考虑类间与类内数据的不平衡,根据子簇所占样本的比例运用SMOTE算法进行过采样,从而降低类内数据的不平衡度;另一方面对过采样后的少数类样本采用Tomek Links数据清理技术进行及时修正,清除数据集中的噪声和抽样方法产生的重叠样例,从而保证合成样本的质量。本文所用训练数据集和测试数据集均为UCI数据集。实验结果表明本算法可以明显提高不平衡数据集的分类精度,从而提高分类器的分类性能。  相似文献   

2.
针对现有的不平衡数据处理方法存在不能有效处理分类型数据、盲目采样及抗噪声能力差等问题,提出一种基于k-modes聚类的不平衡数据混合采样算法HS_WODKM;首先提出一种基于加权重叠距离的k-modes聚类算法WODKM,然后采用改进的合成少数过采样技术(SMOTE)算法与WODKM分别对不平衡数据进行过采样与降采样处理,从而获得一种新的不平衡数据混合采样算法HS_WODKM;HS_WODKM采用增加正类样本并减少负类样本的混合采样策略解决样本类别不平衡问题,用来处理分类型数据,并且能够克服现有方法存在的抗噪能力差、删除重要样本等缺陷;为了验证HS_WODKM的性能,在多个分类型UCI数据集上进行实验。结果表明,采用HS_WODKM算法处理分类型不平衡数据是可行且有效的。  相似文献   

3.
面向不平衡数据集的一种精化Borderline-SMOTE方法   总被引:2,自引:0,他引:2  
合成少数类过采样技术(SMOTE)是一种被广泛使用的用来处理不平衡问题的过采样方法,SMOTE方法通过在少数类样本和它们的近邻间线性插值来实现过采样.Borderline-SMOTE方法在SMOTE方法的基础上进行了改进,只对少数类的边界样本进行过采样,从而改善样本的类别分布.通过进一步对边界样本加以区分,对不同的边界样本生成不同数目的合成样本,提出了面向不平衡数据集的一种精化Borderline-SMOTE方法(RB-SMOTE).仿真实验采用支持向量机作为分类器对几种过采样方法进行比较,实验中采用了10个不平衡数据集,它们的不平衡率从0.064 7到0.536 0.实验结果表明:RB-SMOTE方法能有效地改善不平衡数据集的类分布的不平衡性.  相似文献   

4.
现有的绝大多数过采样方法着重于寻找少数类样本的边界从而增强样本的可分性,忽略了样本的重叠分布与小析取问题,这导致在过采样阶段产生过多的噪声,最终无法实现对少数类样本的正确分类.针对这些问题,提出一种基于密度峰值聚类和局部稀疏度的过采样算法.首先利用改进的密度峰值聚类算法对全部样本自适应地划分出多个簇,根据簇内样本的不平衡比过滤掉不平衡比过高的簇,然后在筛选出的簇中根据少数类样本的分布情况对各簇的过采样个数进行分配,最后通过样本密度计算出各簇少数类样本的局部稀疏度,从中选择出稀疏度较高的少数类样本参与到最终的合成少数过采样.将提出的过采样算法与八种常用的过采样算法分别与三种基分类器相结合,在18个不平衡数据集上进行对比实验.实验结果表明,提出的算法总体上表现更优,能得到更好的分类性能.  相似文献   

5.
针对小样本数据样本容量不足与分布不平衡的设备寿命预测问题,构建基于改进SMOTE算法与改进KNN(K-NearestNeighbor)算法联合优化模型。首先,设置噪声比例系数β排除样本数据中的噪声,随后通过类B-SMOTE(Borderline-SMOTE)算法与传统SOMTE算法结合构建改进SMOTE(ISMOTE)算法对存在分布问题的少数类样本进行新增优化,避免因为样本分布不平衡以及样本数量较少引起的偏差。其次,针对分类过程中边界模糊的样本点,通过利用粒子群算法寻求每个样本种类中心点并计算样本距离均值建立分隔阈值$ \stackrel{-}{d} $,对阈值范围内的样本点利用“投票法”判断样本种类,规避KNN算法在处理数据时因为不同种类样本混合而出现误差的问题。最后,通过利用美国卡特彼勒公司液压泵状态数据以及凌津滩水电站水导轴承振动数据进行仿真,算例证明上述两种改进算法在面对小样本不平衡设备数据时可以准确分析设备运行状态以及预测设备未来健康发展趋势。  相似文献   

6.
采用少类样本合成过采样技术(SMOTE)与二叉树多类支持向量机(BTSVM)相结合的入侵检测算法来解决实际应用中经常遇到的类别不平衡的分类问题.该方法首先对不平衡类别的训练集使用BTSVM分类,然后对求出各分类器中的支持向量使用SMOTE方法进行向上采样,最后用不平衡类别的测试集在新的分类模型中进行测试.实验结果表明本算法能够有效地提高不平衡数据集的分类性能.  相似文献   

7.
针对弱观测噪声环境下的粒子退化现象,特别是观测噪声较小时非线性非高斯的粒子滤波问题,提出了一种基于均值迁移的粒子滤波算法。首先,将核密度估计的无参快速模式匹配算法引入到粒子滤波中,并迭代计算概率密度估计。然后,利用均值迁移估计粒子梯度的方向,计算每个粒子移向其样本的均值。当粒子位置发生改变时,对重采样粒子进行加权处理。最后,根据本算法采样更新粒子集,有效地克服了粒子退化现象并提高了状态估计精度。  相似文献   

8.
张阳  张涛  陈锦  王禹  邹琪 《北京理工大学学报》2019,39(12):1258-1262
网络入侵检测已经广泛运用机器学习模型,但是研究者们多关注模型选择和参数优化,很少考虑数据不平衡的影响,往往会导致少数类入侵样本的检测效果较差.针对该问题,以SMOTE (synthetic minority oversampling technique)数据再平衡算法为研究重点,应用入侵检测数据集KDD99作为原始训练集,使用简单抽样和SMOTE算法生成再平衡训练集.采用多种机器学习模型分别在原始训练集和再平衡训练集进行5折交叉验证.实验结果表明,与原始训练集相比,使用再平衡训练集建模能够在不降低甚至提高多数类样本识别效果前提下,使少数类样本的识别准确率和召回率增强10%~20%.因此,SMOTE算法对不平衡样本下的网络入侵检测有显著的提升作用.   相似文献   

9.
针对SMOTE算法和随机森林可较好解决不平衡数据集的分类问题但对少数类样本分类效果还有待提高的问题,融合Canopy和K-means两种聚类算法,设计了C-K-SMOTE改进算法。先后利用Canopy算法进行快速近似聚类,再利用K-means算法进行精准聚类,得到精准聚类簇,最后利用SMOTE算法增加少数类样本数量,使数据趋于平衡。选取公开数据集KEEL(knowledge extraction on evolutionary learning)数据库中的不平衡数据集,结合随机森林分类模型进行了实验验证,实验表明C-K-SMOTE算法可有效平衡不平衡数据集。  相似文献   

10.
为了解决传统方法因数据不平衡及特征冗余而导致检测准确率不高的问题,提出了一种结合SMOTE(synthetic minority over-sampling technique)算法采样的SDAE-LSTM(stacked deep auto-encoder-long short term memory)入侵检测模型。首先,针对数据不平衡问题,采用SMOTE算法在少数类样本点之间随机插入样本增加其数量,达到类间平衡的目的。其次,针对特征冗余问题,利用堆叠式深度自编码器(stacked deep auto-encoder,SDAE)进行降维,实现数据的深度特征提取。最后,基于长短期记忆(long short term memory,LSTM)神经网络,精准捕获网络入侵特征,准确地实现入侵检测。通过在UNSW-NB15数据集上的大量实验,有效证明了本文模型与其他模型相比有着更好的入侵检测效果。  相似文献   

11.
不平衡数据集广泛存在,对其的有效识别往往是分类的重点,但传统的支持向量机在不平衡数据集上的分类效果不佳.本文提出将数据采样方法与SVM结合,先对原始数据中的少类样本进行SMOTE采样,再使用SVM进行分类.人工数据集和UCI数据集的实验均表明,使用SMOTE采样以后,SVM的分类性能得到了提升.  相似文献   

12.
为了更好地控制利用伪标签样本学习的这类半监督分类算法中的噪声,针对以往研究中分布噪声难以量化并被忽视的问题,提出一种基于高斯混合模型和伪验证集的噪声量化和分析的新方法.根据噪声下的泛化误差分析,提出一种可回溯的分类器迭代训练策略,可以有效降低伪标签样本带来的噪声影响.通过将该训练策略与集成学习相结合,提出一种ensemble self-learning(ESL)算法,能够进一步提高分类算法的泛化性能.在6个公开数据集上与同类先进算法进行了试验比较.结果表明,所提出的算法取得了最高的平均准确率,并且在75%的试验数据集上都取得了最好的准确率.  相似文献   

13.
少数类样本合成过抽样技术(SMOTE)是一种过抽样数据预处理算法,是在两个少数类之间随机插入一个新的少数类样本.为了解决SMOTE算法生成少数样本随机性的局限性,在考虑多数类样本分布会对少数样本的生成产生影响的基础上,提出了改进的SMOTE算法.在WEKA平台上分别使用改进前后的SMOTE算法对选用的UCI数据集进行过抽样数据预处理,并使用朴素贝叶斯、决策树和K邻近分类器对过抽样后的数据集进行分类,选择几何均数(G-mean)和曲线下面积(AUC)两个评价指标,实验显示改进后的SMOTE算法预处理的数据集的分类效果更好,证明改进后的SMOTE算法生成的少数类样本更加合理.  相似文献   

14.
近年来非平衡多分类数据的学习问题在机器学习和数据挖掘领域备受关注,上采样技术成为解决数据不平衡问题的主要方法,然而已有的上采样技术仍有很多的不足,例如新合成的少数类样本仍可能分布在对应少数类样本的原始区域内,不能有效改善数据分布的不平衡情况.此外,若原始样本中不同类别样本分布存在重叠,则新合成的样本会更容易偏离到其他类样本分布中,从而造成过泛化现象,影响少数类样本的分类精度.为解决上述问题,提出一种二次合成的上采样方法(Quadratic Synthetic Minority Over-sampling Technique,QSMOTE).首先通过少数类样本的支持度选择包含重要信息的样本来进行第一次合成,然后通过分析指定少数类样本质心的邻域内样本分布情况来调整第二次样本合成范围,并最终进行第二次合成.在UCI和MNIST数据集上的实验结果表明,QSMOTE不仅可以改善数据分布的不平衡问题,而且可以尽可能地减少过泛化现象,特别是对少数类样本的分类准确率有大幅提升.  相似文献   

15.
针对现有非平衡数据处理方法存在的局限性,提出一种考虑边界4稀疏样本的混合采样方法(considering boundary sparse samples-hybrid sampling,CBSS-HS)。通过计算每个样本的边界因子识别边界点,将样本空间划分为边界域和非边界域,对非边界域内的负类样本进行欠采样,而由于边界域上样本的稀疏性,对其上正类样本使用基于最大距离的合成少数类过采样技术(max distance-synthetic minority oversampling technique,MD-SMOTE)进行过采样,最大限度地保留正类样本的信息,最终达到2类样本基本平衡。将Recall,F1-value,G-mean和AUC(area under the curve)值作为评价指标,使用CBSS-HS+支持向量机(support vector machines,SVM)算法在5个不同平衡度的数据集上验证其有效性,并与其他4种组合模型的分类效果做对比。结果表明,提出的CBSS-HS算法在不同数据集上各个评价指标都有良好的表现,平均提高了4.6%。因此,该方法可以作为处理非平衡数据的一种有效手段。  相似文献   

16.
传统的高斯混合模型对于含有噪声的图像不能进行有效的分割。针对有噪声图像的分割问题,提出了一种基于狄利克雷分布和参数分析的高斯混合模型图像分割算法。首先采用高斯函数对像素计算先验概率值,然后采用狄利克雷分布和定律关联像素间的邻域信息,并利用梯度下降法优化参数。实验结果表明,本文算法对无噪声和有噪声图像的分割结果比传统方法更有效,误分率更低。  相似文献   

17.
由于小样本不平衡数据的存在,对核电厂故障诊断准确率造成极大的影响,针对核电厂小样本不平衡的问题,文中提出一种合成少数类过采样技术(SMOTE)与长短期记忆(LSTM)深度神经网络相结合的算法进行核电厂小样本不平衡故障诊断,实验结果表明采用该方法进行故障诊断具有很高的诊断准确率.  相似文献   

18.
对不平衡数据进行聚类分析时,K-means聚类方法可能会错误地将分布在较小区域类别中的样本划分到大区域类别中;谱聚类算法,虽然可以有效优化数据结构,并很好地识别不同形状的样本,但却难以处理大规模数据.针对这些问题,提出一种改进地标点采样的不平衡数据聚类算法.该算法首先对不平衡数据进行预聚类以获得初始类标签,然后基于数据密度对数据进行采样.在此基础上,通过对采样数据执行K-means聚类,并将聚类中心作为地标点,对数据进行谱聚类分析.实验结果显示,该方法在处理不平衡数据时,不仅能够有效提高样本的聚类准确率,而且能够保证聚类结果的稳定性和精度.  相似文献   

19.
变分高斯过程分类器是最近提出的一种较有效的面向大规模数据的快速核分类算法,其在处理类不平衡问题时,对少数类样本的预测精度通常会较低.针对此问题,通过在似然函数中引入指数权重系数和构造包含相同数目正负类样本的诱导子集解决原始算法的分类面向少数类偏移的问题,建立了一种可以有效处理大规模类不平衡问题的改进变分高斯过程分类算法.在10个大规模UCI数据集上的实验结果表明,改进算法在类不平衡问题上的精度较原始算法得到大幅提高.  相似文献   

20.
在污水处理过程故障会导致出水水质下降、运行费用增高甚至造成环境的二次污染,而污水处理故障诊断数据的典型不平衡特性,严重影响了故障诊断的效果,尤其会导致故障分类的正确率偏低.针对此问题,文中提出了一种基于加权极限学习机的改进Bagging集成污水处理故障诊断建模方法;以加权极限学习机为基分类器,以Bagging集成框架建立集成分类器;定义可调整的过采样倍率公式,通过虚拟少数过采样算法(SMOTE)对少数类样本进行过采样,以保证基分类器间的多样性;以不平衡分类性能指标G-mean值为基础,定义新的基分类器输出权值更新公式,以提高故障类别识别率.仿真实验表明,该污水处理故障诊断模型的性能优于其他对比算法,可有效提高G-mean值和整体分类正确率,特别是提高了故障类别的识别正确率.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号