首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 531 毫秒
1.
针对分类算法在非平衡数据集的情况下分类性能不理想的问题,总结了常见的数据平衡化方法,包括改造数据集与改进算法,提出一种全新的基于最大平衡度的自适应随机抽样算法,进一步优化了随机森林算法的分类效果.将其应用在随机森林算法的数据预处理阶段,并通过实验证明了该随机抽样方法的有效性,在合理的整体精度范围内能够较好地处理非平衡数据.产生的新数据比较拟合初始数据,能够提高分类器处理非平衡数据的能力.  相似文献   

2.
非平衡数据集是指数据集中的某类样本数量远大于其他样本的数量。对于此类数据,类分布的不平衡会直接导致很多分类算法的失效。文中基于K-means聚类,Silhouette指标和M-近邻下采样提出一种新的数据平衡方法(K-S-M)。该方法首先用K-means算法对多数类样本进行多次聚类并选取最优聚类个数,然后采用M-近邻下采样对聚类后的数据进行采样,将采样后的点最终构成平衡数据,并对得到的平衡数据进行癫痫性发作的自动检测。实验结果表明,文中所提方法可以很好地处理非平衡数据,减少数据信息损失,同时可以提高非平衡数据分类的有效性。  相似文献   

3.
基于非平衡数据的随机森林分类算法改进   总被引:1,自引:0,他引:1  
随机森林算法作为一种组合分类器有较好的分类性能,适合多样的分类环境。算法同样也存在一些缺陷,例如算法处理非平衡数据时不能很好地区分正类和负类。针对这一问题,通过对抽样结果增加约束条件来改进Bootstrap重抽样方法,减少抽样对非平衡性的影响,同时尽量保证算法的随机性。之后利用生成数据的非平衡系数给每棵决策树进行加权处理,提升对非平衡数据敏感的决策树在投票环节的话语权,从而提升整体算法对非平衡数据的分类性能。通过上述两种改进可以明显提高随机森林在决策树数量不足情况下的分类精度。  相似文献   

4.
支持向量机(Support Vector Machine,SVM)是一种公认有效的分类算法,在处理小规模二分类问题时表现出较好的性能,但在处理非平衡数据的分类问题时能力有限,针对非平衡数据的分类问题,文章提出一种基于划分融合的非平衡SVM算法(Imbalanced SVM Algorithm based Divisio...  相似文献   

5.
非平衡数据分析是数据领域的重要问题之一,其类间分布的巨大差异给聚类方法带来严峻挑战.围绕非平衡数据聚类问题,分析了非平衡数据对模糊聚类方法的影响,提出了基于密度感知的模糊聚类方法.方法将数据分布密度特征嵌入模糊聚类初始化过程中,用于定位初始聚类中心点,避免了少数类中心点位置的消失,在此基础上进一步设计了基于密度的模糊聚类优化更新方法.经数据集分析验证,本研究方法能够有效解决非平衡数据分类中少数类消失问题,并且在聚类算法性能上比传统方法有明显提高.  相似文献   

6.
Relief算法对于数据重叠区域的样本分类较为困难,通过人为剔除分类边界的样本来缓解干扰数据对于分类性能的影响。在非平衡数据中,重叠区域包含着为数不多的少数类样本,简单地剔除干扰数据可能会造成信息的丢失。针对这一问题,文章提出了一种面向非平衡数据的大间隔近邻Relief算法,该算法首先结合K-means,提供了两种多数类样本的欠采样方案,以获得较为平衡的新采样数据集。然后利用SVM计算新数据集中最具判别性的方向,并依此设计了一种基于大间隔的近邻计算方式,从而尽可能避开干扰数据。在6个非平衡数据集上的实验表明,在现有代表性算法的基础上,文章提出的算法仅利用31%~57%数量的特征即可达到相当或更高的分类性能。  相似文献   

7.
针对传统决策树在非平衡数据集分类时少数类预测性能出现偏差的问题,提出一种基于强化学习累积回报的属性优化策略即改进型同分布多决策树方法。首先通过同分布随机抽样法对非平衡数据集中的多数类样本进行随机采样,进而对各子集建立单决策树形成多个决策树,各决策树采用分类回归树算法建树,并利用强化学习累积回报机制进行属性选择策略的优化。研究结果表明:提出的基于强化学习累积回报机制的属性优化策略可有效提高少数类被正确分类的概率;同分布多决策树方法可有效提高非平衡数据集整体预测性能,且正类率和负类率的几何平均值都有所提高。  相似文献   

8.
不平衡分类问题始于二分类任务中的数据偏态问题,当传统机器学习分类方法应用于不平衡数据集时,分类效果往往不尽人意。因此,许多用于处理不平衡数据集的分类器模型已经被提出,包括数据层面的方法、算法层面的方法、混合方法以及集成分类器模型。本文主要通过讨论不平衡分类问题的实质,对不平衡分类问题的研究进行综述,介绍几种主要的解决策略,针对不平衡数据特点讨论适应不平衡特点的性能指标,并针对已有研究分析所存在的问题及挑战。  相似文献   

9.
一种不平衡数据的分类方法   总被引:1,自引:0,他引:1  
针对一个球的模式分类(SSPC)方法没有考虑样本分布不平衡的问题,提出一种不平衡数据的分类方法.该方法引入类权重因子和样本权重因子,通过一个超球面将两类数据以最大分离比率分离,从而提高不平衡数据对正类分类和预测的性能.实验结果表明,该方法可以有效提高不平衡数据的分类性能.  相似文献   

10.
一种基于投票的不平衡数据分类集成算法   总被引:1,自引:1,他引:0  
不平衡数据分类是机器学习的研究热点之一。传统的机器学习分类算法通常假定用于训练的数据集是平衡的,不能直接应用于不平衡数据分类。利用朴素贝叶斯和决策树对数据不平衡的敏感度不同,提出一种基于投票的不平衡数据分类集成算法。基分类器选择NB和C4.5,通过投票平均方法进行分类决策;并选择公开的不平衡数据集进行实验验证。实验结果表明,该算法能有效提高不平衡数据的分类性能,特别是对正类(少数类)的误报率较低,具有良好的鲁棒性。  相似文献   

11.
针对非平衡数据的半监督分类问题,提出了一种基于Biased-SVM的非平衡半监督分类算法.该方法首先利用初始的标记样本集训练处理不平衡数据的Biased-SVM模型,然后用训练好的Biased-SVM模型为未标记样本加上标签,再把新标记样本加入到初始标记样本集中,重新训练Biased-SVM模型,最后在测试集上进行测试.选取公共数据库里的一些数据集进行实验,首先在两类不平衡数据集上实验的结果表明,在标记样本所占比例为20%~80%时,所提方法能够在不降低数据集整体G-mean值的基础上,提高小类的F-value值并具有较高的稳定性;然后在多类不平衡数据集上实验的结果表明,在标记样本所占比例为20%~80%时,所提方法能够在不降低数据集整体的EG-mean值的基础上,提高小类识别率并具有较高的稳定性.  相似文献   

12.
针对非平衡交互文本少数类实例匮乏易导致训练的情感分类模型泛化性能差的问题,提出基于超平面距离的非平衡交互文本情感实例迁移方法。该方法将在少数类和多数类支持向量之间的源数据集实例作为待迁实例,并基于目标数据集上的分类超平面构造一个偏移超平面。依据最优信息效用原则基于待迁实例到偏移超平面的距离最短来筛选迁入的实例,同时通过调节迁入比例控制迁入实例规模生成合成数据集。实验结果表明:随着迁入实例增多,合成数据集对原始分布的偏离增大,所训练的序列最小优化算法(SMO)模型的泛化分类性能呈现先提升后降低的现象,类似于信息效用的Wundt曲线;与SMOTE、Subsampling、Oversampling 3种数据层处理方法相比,所提方法训练的SMO、LibSVM、随机森林、代价敏感、CNN 5个分类模型在少数类识别F值上平均获得11%的增幅,且迁入比例最佳范围为20%~30%,在有效缓解非平衡特性的同时提高了少数类识别的泛化分类性能。  相似文献   

13.
不平衡数据的分类是机器学习的热点问题.传统的分类方法在分类时会倾向于多数类而使得分类精度不高.对不平衡数据集的分类,提出一种基于FCM结合KFDA方法,首先采用FCM算法对样本数据进行聚类,将数据聚类后的样本数据映射到特征空间里,再采用KFDA算法对数据进行分类,可以克服不平衡数据对分类性能的影响.对UCI数据集进行仿真实验,结果表明FCM-KFDA算法可以有效地提高数据识别率.  相似文献   

14.
对于水军评论检测问题,已有方法在提取用户行为关系以及通过神经网络提取特征时复杂度过大,同时由于网络评论属于短文本类,其书写的不规范会导致训练过程中文本特征提取困难;另外,已有方法对数据集不平衡分布情况考虑不足。为此,提出了一种基于双层堆叠分类模型的水军评论检测方法。首先通过三元组形式构造矩阵表示用户间关系,并通过主成分分析得到低维用户关系表示,以此刻画用户在评论数据中的行为差异并且降低计算的复杂度;然后,通过评论的段落向量表示以及计算离散型特征(包括文本相似度、信息熵等)解决文本特征难以提取的问题;最后将三者相联结作为融合文本与行为特征的整体特征表示。利用集成学习的方法构造双层堆叠分类模型对评论分类,以提升模型在非平衡数据集下的检测性能。实验采用Yelp2013评论数据集,结果表明,与目前最好的基准方法对比, F1值提高了1.7%~5.2%,在非平衡数据集中提升尤为明显。  相似文献   

15.
虽然最邻近决策规则能很好地解决数据集的非线性和非平衡性问题,但其没有学习过程.在此基础上,提出了一种利用聚类方法来浓缩训练样本,再根据最近邻准则进行决策的方法——核最近表面分类方法.通过实验将其与几种常用的统计分类方法进行对比,结果表明,核最近表面分类方法具有决策速度快、存储空间需求小等优点,同时也能够很好地处理非平衡...  相似文献   

16.
在当前的物料平衡系统所用到的数据分类方法中,零度矩阵法具有构造方法简洁、运算方便、计算效率高等优点。但零度矩阵法具有对数据分类不够彻底的缺点,进而影响下一步数据校正工作的精度,最终对整个物料平衡系统的可靠性造成影响。针对上述问题,提出了一种改进的零度矩阵分类算法,在数据预处理阶段引入极大绝对线性无关列的概念,通过对矩阵的重新分割,实现了对平衡组中数据的彻底分类。仿真实验结果证明,该方法实现了对数据的彻底分类,提高了物料平衡系统的精度与可靠性。  相似文献   

17.
一种基于级联模型的类别不平衡数据分类方法   总被引:6,自引:0,他引:6  
真实世界问题中,不同类别的样本在数目上往往差别很大,而传统机器学习方法难以对小类样本进行正确分类,若小类的样本是足够重要的,就会带来较大的损失.因此,对类别分布不平衡数据的学习已成为机器学习目前面临的一个挑战.受计算机视觉中级联模型的启发,提出一种针对不平衡数据的分类方法BalanceCascade.该方法逐步缩小大类别使数据集趋于平衡,在此过程中训练得到的一系列分类器通过集成方式对预测样本进行分类.实验结果表明,该方法可以有效地提高在不平衡数据上的分类性能,尤其是在分类性能受数据的不平衡性严重影响的情况下.  相似文献   

18.
针对大数据分类中的不平衡问题,本文提出一种基于边界条件生成式对抗网络(Boundary Conditional Generative Adversarial Networks,BCGAN)的不平衡大数据模糊分类算法,通过在多数类数据和少数类数据的决策边界附近引入一个边界少数类到过样本,生成更合适的少数类数据来提高分类性能.将处理过的平衡数据转换成概率索引表,数据和属性分别以行和列的形式呈现,计算每个数据属性中存在的唯一符号的隶属度,然后设计相关模糊朴素贝叶斯(Correlative Fuzzy Naive Bayes,CFNB)分类器进行数据分类.本文给出MapReduce框架下大数据模糊分类的并行实现.实验结果表明:所提基于BCGAN的不平衡大数据模糊分类准确度优于其他现有方法,说明该方法具有可行性和有效性.  相似文献   

19.
基于支持向量机的不平衡数据分类的改进欠采样方法   总被引:3,自引:0,他引:3  
支持向量机作为一种有监督分类算法,具有小样本,非线性等独特优势,但其在处理不平衡数据分类时效果不够理想.欠采样是一类常用的数据重构方法,它被广泛用于解决不平衡数据的分类问题,然而,传统的随机欠采样方法受随机性影响,稳定性较差.提出一种改进的欠采样方法,并应用在支持向量机上进行分类对比实验.实验结果表明,相比传统随机欠采样方法,该方法的稳定性更好,且在许多情况下可以提高支持向量机对不平衡数据的分类性能.  相似文献   

20.
为解决癌症基因组图谱中DNA甲基化数据不平衡导致假阴率上升的问题,提出一种基于TCGA数据库不平衡数据的改进分类方法.使用合成少数类过采样技术和Tomek Link算法进行混合采样,解决数据不平衡问题.在此基础上,将经特征选择后的训练集数据输入改进模型进行训练、学习及分类.基于TCGA数据库6种癌症DNA甲基化数据的实验结果表明:改进方法对少数类样本的分类性能有显著提高,对多数类样本的分类性能也有一定的提升.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号