首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到18条相似文献,搜索用时 265 毫秒
1.
不平衡最小二乘支持向量机   总被引:1,自引:0,他引:1  
针对标准的最小二乘支持向量机(LSSVM)没有考虑样本分布不平衡的问题提出一种称为不平衡最小二乘支持向量机的算法.首先用标准的最小二乘支持向量机对原始数据进行初步训练,产生一个分离超平面的法向量.然后把高雏样本投影到该法向量上得到一维数据.最后由该一维数据的标准差以及样本数量差异所提供的信息,给出两类数据惩罚因子比例,再用标准的最小二乘支持向量机进行第二次训练,对分离超平面进行调整.该方法克服传统方法只考虑数量的不平衡的不足,将原有样本集中具有的分类信息充分提取出来,提高了最小二乘支持向量机的泛化能力.实验结果表明,所提方法可以有效提高不平衡数据的分类性能.  相似文献   

2.
SVM方法及其在客户流失预测中的应用研究   总被引:8,自引:1,他引:8  
客户流失分析与预测是客户关系管理的重要内容.针对客户流失问题,建立了支持向量机预测模型.针对实际客户流失数据中正负样本数量不平衡而且数据量大的特点,提出带有不同类权重参数的支持向量机算法CW-SVM,通过调整类权重参数改变分类面位置,提高算法分类准确性;将标准支持向量机训练问题转化为运算效率更高的核向量机问题,提出处理不平衡海量数据集的CWC-SVM算法.通过实际银行信贷客户数据集测试,该算法与传统预测算法比较,更适合解决大数据集和不平衡数据,取得较好的客户流失预测效果.  相似文献   

3.
支持向量机分类方法在小样本、非线性情况下具有较好的泛化性能,在入侵检测系统中有着广泛的应用。针对入侵检测过程中可能出现的由两类样本不平衡造成的分离超平面偏移现象,以核函数所蕴含的黎曼几何为依据,引入一个伪一致性变换函数,对核函数进行修改,提高支持向量机的分类泛化能力,建立基于支持向量机的网络入侵检测系统,并对系统总体结构和运行机制进行了详细的描述。实验仿真表明,该系统可有效地提高入侵检测的准确率,改善由于数据集不平衡造成的支持向量机分类偏移的情况。  相似文献   

4.
基于自调节分类面SVM的平衡不平衡数据分类   总被引:1,自引:0,他引:1  
标准支持向量机(SVM)对不平衡数据集进行分类时,会出现不平衡现象;传统不平衡数据集分类方法只能对不平衡数据集分类,且在分类过程中存在人工因素的参与.提出一种平衡不平衡数据集统一分类方法--自调节分类面支持向量机(self-adjusting classification-plane SVM,SCSVM),设计自适应的分类面调节方法,根据训练错分情况对分类面进行调整,控制正负类样本的错分率使其达到均衡,平衡或不平衡数据集都可采用相同的方法进行分类而不需预知数据集种类.实验表明该方法可对平衡或不平衡数据集进行有效的分类.  相似文献   

5.
在遥感图像分类实际应用中,深度学习经常面临高光谱数据有效标签不完备、样本多类不平衡和数据分布随时空动态变化等问题,难以发挥优势。基于上述问题,提出一个基于人工少数类过采样方法(synthetic minority oversampling technique, SMOTE)和深度迁移卷积神经网络的土地覆盖分类算法。所提算法创新性地采用深度迁移学习,使算法能够学习不同时空相同地物的相似性,并利用SMOTE方法对学习数据进行类分布空间优化平衡,从而解决目标域数据不足和数据类不平衡问题。两组公开的高光谱遥感图像被用来验证所提算法的有效性。实验结果表明,相比传统的深度学习,所提算法能够更有效地解决数据不足和数据类不平衡问题提高分类精度。  相似文献   

6.
本文基于我国在公开市场发行过信用类债券的违约数据,利用了基于Wasserstein距离的生成对抗网络模型和SMOTE抽样技术对违约样本进行过抽样以提高非平衡样本下违约风险模型的预测效果.为检验过抽样技术对分类模型的改进效果,实证分析对不同的重抽样样本类别比例下分类模型的预测结果进行比较.研究结果表明过抽样技术能够显著地分类模型的预测精度,而且预测效果随着样本类别比例达到平衡而不断提高.和经典的SMOTE抽样技术相比,基于Wasserstein距离的生成对抗网络过抽样技术不仅可以提高分类模型的AUC指标,同时还能显著地改进F1得分.研究结果表明通过生成对抗网络对少数类样本进行过抽样能够显著地提升机器学习算法对债券违约风险的预测效果,为研究非平衡样本下的债券违约风险预测提供一种新的解决思路.  相似文献   

7.
客户流失预测是企业客户关系管理的重要内容.在现实的很多客户流失预测建模过程中,由于数据类别的高度不平衡现象的存在,使得模型的分类性能低下,不能很好地进行分类预测.同时由于现实情况中只有少量有类别标签的样本,更多的是无类别标签数据的存在,造成了大量有用信息的浪费.为了解决以上两个问题,本研究将元代价敏感学习,半监督学习和Bagging集成等技术结合,提出了代价敏感的客户流失预测半监督集成模型(semi-supervised ensemble based on metacost,SSEM).该模型主要包括三个阶段:1)用Metacost方法修改初始有标签训练集L的类别标签,得到新的训练集Lm,并将其随机的分为模型训练集Ltr和模型验证集Va;2)使用Va挑选分类精度最高的三个基分类器,并用其选择性标记无类别标签U中的样本,并将它们添加到Ltr中;3)用新的模型训练集Ltr训练N个基本分类模型,并对测试集样本进行分类,进一步将分类结果进行集成.在两个客户流失预测数据集上进行实证分析,将SSEM模型与常用的监督式集成模型以及半监督式集成模型相比,结果表明,SSEM具有更好的客户流失预测性能.  相似文献   

8.
基于自适应SVDD的雷达目标分类方法   总被引:1,自引:0,他引:1  
  相似文献   

9.
不平衡数据的出现给传统关联分类算法带来了巨大的挑战.为了提高关联分类方法对不平衡数据集的分类精度,本文分别从数据和规则层次着手,提出了关键值抽样法(key value sampling,KVS)和规则验证法(rule validation,RV).关键值抽样法通过增加与少数类相关性强的数据,减少与多数类相关性弱的数据来达到数据类分布平衡.避免了大量有效信息的流失,并且增强了与少数类相关性强的数据信息.规则验证法对初步生成的分类器进行了规则验证,并对分类性能不好的规则进行调整,从而保证了分类器中规则的质量.实验表明,本文中的研究方法能够有效提高关联分类方法处理不平衡数据的精度.  相似文献   

10.
针对现有入侵流量检测模型分类准确率低、小样本特征提取不足等问题, 提出了一种基于自适应合成采样和Inception-Resnet模块的改进残差网络算法。该算法能够对不平衡数据集进行采样优化, 有效提升模型的小样本特征提取能力。首先, 通过对不平衡的数据训练集进行过采样改善数据分布, 然后对非数据部分进行独热编码处理并与数据部分整合, 降低预处理复杂度, 最后利用改进残差网络模型进行数据训练, 并进行性能评估和算法效能对比。实验结果表明, 改进残差网络模型对入侵流量的检测准确率在多分类和二分类情况下分别达到89.40%和91.88%。相比于经典深度学习算法, 改进残差网络模型的准确率更高, 误报率更低, 具备较高的可靠性和工程应用价值。  相似文献   

11.
基于SMOTEBoost的非均衡数据集SVM分类器   总被引:3,自引:0,他引:3  
在对实际问题进行数据挖掘时面临的多数是非均衡数据集,即各种类型的数据分布并不均匀,且关注的类型常是少数类.运用含有少量少数类型事例的数据集训练后的模型进行预测时,通常对多数类的预测精度很高,而少数类的预测精确性却很差.提出了一种集成方法SMOTEBoostSVM,通过SMOTE技术人工生成增加少数类样本量,以具有较强分类性能和泛化性能的SVM作为弱分类器,并以AdaBoost算法构建集成分类器.实验结果表明,SMOTEBoostSVM集成分类器比单纯运用SMOTE技术、AdaBoost算法以及SVM等的分类器,在非均衡数据集的分类预测中具有更好的效果.  相似文献   

12.
集成学习的多分类器动态融合方法研究   总被引:5,自引:0,他引:5  
AdaBoost集成学习方法中,分类器一经学习成功,其投票权值就已确定,同一分类器对所有待测样本均有相同的投票权值。对于难于分类样本,具有良好分类性能的少数分类器权值却较低。提出适用于集成学习方法的权重自适应调整多分类器集成算法。根据多分类器行为信息,产生待测样本局部分类精度的有效判定区域,基于有效判定区域选择不同的分类器组合,并调整其相应权重,利用样本集上的统计信息来动态指导分类集成判决。实验结果表明,该算法提高了集成分类性能。  相似文献   

13.
在纠错输出编码(error-correcting output code, ECOC)多类分类中,当待识别样本的真实类别不属于对应二类子类划分时,训练得到的基分类器将不具备对此类样本进行分类的能力,此时的基分类器在解码融合时面临着non-competence问题。如何衡量基分类器是否具备对样本的分类能力,以及如果不具备,如何减少此种情况下对分类效果的影响是基于ECOC多类分类面临的新问题。针对解码框架中non-competent基分类器的分类融合问题,提出一种基于基分类器对样本是否具有分类能力的加权解码方法。该方法利用支持向量数据描述衡量待识别样本与各划分子类之间的距离,同时利用加权解码,通过对基分类器权重的学习,进而增强对类别拥有分类能力的基分类器的影响,减少不具备分类能力的基分类器产生的误差。基于UCI数据集的实验表明所提方法的有效性和实用性。  相似文献   

14.
一种采用LLE降维和贝叶斯分类的多类标学习算法   总被引:2,自引:0,他引:2  
多类标数据中的样本可能属于一个或多个类标,因此其分类问题较单类标分类更为复杂。提出一种新的多类标学习算法,首先针对多类标数据的特征属性维数高的特点,采用LLE算法对多类标数据的特征属性进行降维,提取能较完整描述数据的一组低维特征属性集;然后将多类标样本集按所属的类标进行划分,并采用贝叶斯分类模型来学习各组样本集的分类特性;根据各个分类模型的判定类标,综合得到多类标样本的最终类标集。将该算法分别应用到自然场景图像和基因数据的多类标分类学习中,实验结果表明,该算法针对不同的多类标数据集均能取得很好的分类效果,且相比于其他多类标算法有更高的性能。  相似文献   

15.
基于约束聚类的一种概念学习方法   总被引:2,自引:0,他引:2  
首先定义了字符属性例子空间中合取规则的可学习性,通过将正例集合划分为多个子集,其中每个子集在全体反例集合上均是合取规则可学习的,并建立了命题规则的一般学习模型.然后,提出了三种正例集合的自动聚类和划分方法:相似性度量、差异度量和规则长度等,并设计了一种快速的合取规则学习方法.同时,基于最小覆盖率和最小错误率给出了一种克服过学习问题的后处理方法.最后,针对一组典型的学习问题进行了实验计算,并与已有算法进行了对比分析。  相似文献   

16.
从"独立性差"角度出发,提出了ISE准则下的"独立性差"估计新方法(difference of independence estimation,DOIE).从数学模型上证明该算法与单类SVM等价且可用于解决分类问题.当数据集规模较大时,该算法的优势在于可用较少样本点表示两数据集中样本点间的关系,在保证精度的前提下,提高运算速度.该算法还可应用于两数据集独立性判断、检测流数据分布改变点的位置.若退化为单类数据集,可应用于概率密度估计.Benchmark和UCI数据集上的实验表明,该算法具有较好的性能.  相似文献   

17.
针对SVM在大类别模式分类中存在的问题,提出了一种基于模糊核聚类的SVM多类分类方法,并给出了一种高效的半模糊核聚类算法。该方法基于模糊核聚类方法生成模糊类,并采用树结构将多个SVM组合起来实现多类分类。模糊核聚类方法不但能够实现更为准确的聚类,而且能够挖掘模糊类的外围、不同模糊类之间的交叠情况等信息,利用这些信息能有效提高分类器的性能。实验表明,所提方法比传统方法具有更高的速度和精度。  相似文献   

18.
一种快速的脑电信号特征提取与分类方法   总被引:2,自引:0,他引:2  
吴婷  颜国正  杨帮华 《系统仿真学报》2007,19(18):4342-4344
在脑机接口研究中,针对两种思维任务的特征抽取和分类,提出一种以通道信号在两种类别下均值之间的欧式距离为特征,用阈值判定进行任务分类的方法;采用BCI2003竞赛数据,分析了该方法的实验背景和理论依据,并将分类精度与竞赛的最好结果进行了比较;表明了所提出方法运用在实际系统中的有效性和优越性。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号