首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 390 毫秒
1.
非平衡数据分析是数据领域的重要问题之一,其类间分布的巨大差异给聚类方法带来严峻挑战.围绕非平衡数据聚类问题,分析了非平衡数据对模糊聚类方法的影响,提出了基于密度感知的模糊聚类方法.方法将数据分布密度特征嵌入模糊聚类初始化过程中,用于定位初始聚类中心点,避免了少数类中心点位置的消失,在此基础上进一步设计了基于密度的模糊聚类优化更新方法.经数据集分析验证,本研究方法能够有效解决非平衡数据分类中少数类消失问题,并且在聚类算法性能上比传统方法有明显提高.  相似文献   

2.
针对不平衡数据分类问题,提出了一种带有间隔感知标签分布损失函数的支持向量机,称为基于间隔放大损失的支持向量机(support vector machine with margin magnification loss,MM-SVM)。考虑各类样本的分布情况以及数据不平衡比,设计了一种间隔放大损失函数,最小化基于间隔的泛化误差界;将间隔放大损失函数应用于SVM模型中,增强了少数类样本对分类超平面的影响,实现对少数类样本的准确分类。在Keel和UCI数据库上的实验表明,MM-SVM在不平衡数据分类精度和时间效率上均优于其他5种对比方法,实现了对不平衡数据的有效分类。  相似文献   

3.
对不平衡数据进行聚类分析时,K-means聚类方法可能会错误地将分布在较小区域类别中的样本划分到大区域类别中;谱聚类算法,虽然可以有效优化数据结构,并很好地识别不同形状的样本,但却难以处理大规模数据.针对这些问题,提出一种改进地标点采样的不平衡数据聚类算法.该算法首先对不平衡数据进行预聚类以获得初始类标签,然后基于数据密度对数据进行采样.在此基础上,通过对采样数据执行K-means聚类,并将聚类中心作为地标点,对数据进行谱聚类分析.实验结果显示,该方法在处理不平衡数据时,不仅能够有效提高样本的聚类准确率,而且能够保证聚类结果的稳定性和精度.  相似文献   

4.
针对入侵检测中少数类异常数据的检测精度较低的问题,提出基于支持向量聚类的不平衡数据无监督检测算法.方法采用支持向量聚类对所有未知样本进行聚类,根据不同类别样本内在属性的差异,用改进的重抽样方法选择样本,平衡数据集的分布,对新的数据集进行学习.经过KDD99的测试表明,该方法能有效检测出少数类样本.  相似文献   

5.
针对传统模糊支持向量机算法采用样本到类中心的距离关系来构建模糊隶属度函数存在不足,以及易受数据集不平衡的影响,提出了一种基于高斯分布的FSVM,该方法既考虑了2类样本数量的不平衡问题,同时进一步考虑了样本不同方向上的分布特性.将样本的分布特性应用于模糊隶属度函数的设计,有效地提高了对正常样本和噪声、野值样本的区分能力.实验结果表明,在处理不平衡和有噪声干扰的数据集时,该方法较传统的FSVM具有更强的鲁棒性.  相似文献   

6.
针对现有的基于机器学习的入侵检测系统对类不平衡数据检测准确率低的问题,提出一种基于条件Wasserstein生成对抗网络(CWGAN)和深度神经网络(DNN)的入侵检测(CWGAN-DNN).CWGAN-DN N通过生成样本来改善数据集的类不平衡问题,提升对少数类和未知类的检测效率.首先,通过变分高斯混合模型(VGM)对原始数据中的连续特征进行处理,将连续特征的高斯混合分布进行分解;然后利用CWGAN学习预处理后数据的分布并生成新的少数类数据样本、平衡训练数据集;最后,利用平衡训练集对DNN进行训练,将训练得到的DNN用于入侵检测.在NSL-KDD数据集上进行的实验结果表明:利用CWGAN生成的数据进行训练,DNN的分类准确率和F1分数提升了5%,AUC下降了2%;与其他类均衡方法相比,CWGAN-DNN的准确率至少提升了3%、F1分数和AUC提升了1%.  相似文献   

7.
面向不平衡数据集的一种精化Borderline-SMOTE方法   总被引:2,自引:0,他引:2  
合成少数类过采样技术(SMOTE)是一种被广泛使用的用来处理不平衡问题的过采样方法,SMOTE方法通过在少数类样本和它们的近邻间线性插值来实现过采样.Borderline-SMOTE方法在SMOTE方法的基础上进行了改进,只对少数类的边界样本进行过采样,从而改善样本的类别分布.通过进一步对边界样本加以区分,对不同的边界样本生成不同数目的合成样本,提出了面向不平衡数据集的一种精化Borderline-SMOTE方法(RB-SMOTE).仿真实验采用支持向量机作为分类器对几种过采样方法进行比较,实验中采用了10个不平衡数据集,它们的不平衡率从0.064 7到0.536 0.实验结果表明:RB-SMOTE方法能有效地改善不平衡数据集的类分布的不平衡性.  相似文献   

8.
本文提出了一种针对类分布不平衡数据流的分类算法。首先,针对数据流的类分布不平衡,采用改进的重采样方法,建立平衡的训练子集;然后,采用支持向量机在平衡的训练子集上建立基分类器;最后,采用WE集成模型组合基分类器,构建不平衡数据流的集成分类器。该算法通过设定相邻数据块的F-value的差值大于等于某一阈值作为更新分类器的标准,同时在更新分类器时引入错分正类实例重新训练基分类器。实验结果表明该算法不仅对正类有较好的分类性能,对整体也有较好的分类性能。  相似文献   

9.
在基于解决单类问题的支持向量数据描述算法基础上提出了基于聚类分布信息的c-SVDD算法.该算法对带野值的SVDD算法中的C值重新定义.通过增加核空间下测试样本的聚类分布信息。为每个样本定义一个特定的c值.c-SVDD算法适应于解决类别不平衡学习问题.该算法在保证少类样本高分类精度前提下,还有效提高了全样本的分类精度,更符合现实不平衡问题中对少类样本的处理要求.对UCI数据集和人工样本集进行实验.改进后的c-SVDD算法比带野值的SVDD算法AUC值平均提高0.14以上;比AdaBoost算法在正类查全率上平均提高40%,精确度也提高了至少5%.  相似文献   

10.
为解决癌症基因组图谱中DNA甲基化数据不平衡导致假阴率上升的问题,提出一种基于TCGA数据库不平衡数据的改进分类方法.使用合成少数类过采样技术和Tomek Link算法进行混合采样,解决数据不平衡问题.在此基础上,将经特征选择后的训练集数据输入改进模型进行训练、学习及分类.基于TCGA数据库6种癌症DNA甲基化数据的实验结果表明:改进方法对少数类样本的分类性能有显著提高,对多数类样本的分类性能也有一定的提升.  相似文献   

11.
针对不平衡分类问题,提出了逻辑判别式算法.该算法使用拟牛顿法迭代求解模型参数,考虑模型的准确率和召回率,构造了新损失函数(Likelihood Estimation and Recall Metric,LERM);设计了用于不平衡类问题的逻辑判别式算法(Logistic Discrimination Algorithms for Imbalance,LDAI).16个数据集上的实验结果表明,与传统的逻辑判别式、基于过采样和欠采样的逻辑判别式相比,LDAI模型在召回率、f-measure、g-mean等指标上都表现出明显优势.  相似文献   

12.
针对初值及模式的不确定性,进行了初值扰动集合预报和模式扰动集合预报。在初值扰动集合预报中,将一种新的遗传策略用于四维变分资料同化生成集合预报的分析场,求解条件非线-}生最优扰动,并结合第二、第三主奇异向量(SVs)生成集合预报的初始扰动。为了检验该方法的有效性,采用一个含“开关”过程的偏微分方程的预报模式,设计了3种比较数值试验方案。结果表明:采用第3方案的集合预报在预报技巧上明显高于其他两种方案。第2方案和第1方案相比,由于“开关”的影响,集合预报技巧提高并不明显。在模式扰动集合预报数值实验中,为了模拟模式的不确定性,在控制方程右端添加6个随机的误差项模拟由于物理参数化方案的不同而带来的模式扰动,采用新的遗传策略在扰动模式中同化出6个对应于扰动模式的分析场后进行集合预报,并与基于伴随技术的方法进行比较。结果表明,基于遗传算法的扰动模式集合预报的预报技巧明显优于伴随方法,且这种优势随着预报时间的增加愈发明显。  相似文献   

13.
风电机组齿轮箱的故障率和维护成本相对较高,有必要对其运行状态进行实时监测。多元状态估计(multivariate state estimate technique, MSET)是一种常用的状态监测方法,但在记忆矩阵规模较大时,MSET在线计算的实时性较差。为此,提出一种基于Bagging集成策略和MSET的新方法:首先基于Bagging集成策略,对训练数据进行多次随机抽样,构造多个记忆矩阵规模较小的MSET子模型,最终将子模型的结果平均后作为集成模型的输出。以某2 MW风电机组的运行数据为算例,对集成MSET的性能进行了对比实验。结果表明:在精度相当的前提下,集成方法的计算时间仅为常规方法的60%;结合统计过程控制技术设计了预警阈值和滑动窗口异常率,并对集成MSET的故障预警能力进行验证,结果表明,集成方法能够提前约10 d预警齿轮箱的实际故障。  相似文献   

14.
针对动态选择集成算法存在当局部分类器无法对待测样本正确分类时避免错分的问题,提出基于差异聚类的动态SVM选择集成算法。算法首先对训练样本实施聚类,对于每个聚类,算法根据精度及差异度选择合适的分类器进行集成,并根据这些分类器集成结果为每个聚类标定错分样本区,同时额外为之设计一组分类器集合。在测试过程中,根据待测样本所属子聚类及在子聚类中离错分样本区的远近,选择合适的分类器集合为之分类,尽最大可能的减少由上一问题所带来的盲区。在UCI数据集上与Bagging-SVM算法及文献[10]所提算法比较,使用该算法在保证测试速度的同时,能有效提高分类精度。  相似文献   

15.
缺失数据广泛存在于现实世界中,它对后续的数据分析有很大的影响,有可能导致结果完全错误。近年来,很多基于压缩传感理论的矩阵完全算法被提出并用于缺失数据恢复,但不同的算法在不同的数据集上产生的结果有很大不同,都有自己的优缺点和适用场景。为此提出一种基于异质矩阵完全算法和最大多样性的集成策略的混合集成学习算法,实验结果表明,此算法在不同的数据集上优于那些单个算法。  相似文献   

16.
研究了基于聚类技术提高分类器差异性的方法.通过Bootstrap技术与分类器学习算法训练分类器模型,利用分类器在验证集上的分类结果作为聚类的数据对象;然后应用聚类算法对这些数据聚类,并在每个簇中选择分类器代表模型,以此构成集成学习的成员;最后应用融合方法实验研究了基于聚类技术提高差异性的集成学习性能,并与集成学习方法bagging,adaboost进行了实验比较.  相似文献   

17.
研究表明,具有较大边际分别的组合分类器泛化性能更高.根据该结论,论文构造了一个新的基于边际的度量指标(MM)以充分考虑基分类器和组合分类器的分类能力,进而提出了一种新的组合分类器选择方法.该方法初始化组合分类器为空(或满),迭代的加入(或移除)具有最大(或最小)MM值的分类器,以降低组合分类器规模并提高它的分类准确率.在随机选择的24个UCI数据集上的实验表明,与其他一些高级的贪心组合选择算法相比,该方法具有更好的泛化能力.  相似文献   

18.
对提高数值模式天气预报准确率和可用度,单个模式往往难以达到理想的目的,故常采用集合方法.例如,将模式的初值进行扰动后集合,或者将不同的预报结果集合,甚至运用多模式开展集合预报等.本文着重介绍集合预报初值扰动的应用研究情况,重点阐述目前最先进、最流行的两种方法--奇异向量法和增长模繁殖法.集合初值扰动研究近年取得了丰硕成果,也涌现了一些新的初值扰动方法.但很多问题仍有待解决,例如对初始场误差的进一步认识、误差的离散度还不够大、离散速度还不够快、更有效的扰动生成方法有待出现等.最后,对初值扰动的应用研究进行了展望.  相似文献   

19.
提出一种神经网络分类器的动态集成方法.基于bootstrapping构建不同的个体神经网络,针对混合属性,通过不同的加权最近邻设计评估单个网络的分类精度,在此基础上动态选择误差率较小的神经网络,经过投票形成集成分类结果.将该方法与其它几种集成方法在10个UCI数据集上进行了分类性能比较.实验结果表明,该方法在上述所有数据集上的平均分类精度最佳,同时发现,Bagging比隐层神经元数法能更好地生成个体网络,而将两者结合起来训练个体神经网络,并不能明显提高集成性能.  相似文献   

20.
By combining multiple weak learners with concept drift in the classification of big data stream learning, the ensemble learning can achieve better generalization performance than the single learning approach. In this paper,we present an efficient classifier using the online bagging ensemble method for big data stream learning. In this classifier, we introduce an efficient online resampling mechanism on the training instances, and use a robust coding method based on error-correcting output codes. This is done in order to reduce the effects of correlations between the classifiers and increase the diversity of the ensemble. A dynamic updating model based on classification performance is adopted to reduce the unnecessary updating operations and improve the efficiency of learning.We implement a parallel version of EoBag, which runs faster than the serial version, and results indicate that the classification performance is almost the same as the serial one. Finally, we compare the performance of classification and the usage of resources with other state-of-the-art algorithms using the artificial and the actual data sets, respectively. Results show that the proposed algorithm can obtain better accuracy and more feasible usage of resources for the classification of big data stream.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号