首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到18条相似文献,搜索用时 113 毫秒
1.
评价准则对分类器的构建起着重要作用, 在不平衡数据学习(IDL)中这更是如此. 众多研究已表明, 绝大部分传统的以精度准则为优化目标而获得的分类器是不适于IDL的. 那么其他准则又如何呢? 本文致力于回答这个问题. 通过在支持向量机(SVM)模型上进行“元学习”(Meta-Learning), 我们研究了若干常用的评价准则对IDL的影响, 这些准则包括ACC(精度)、BAC(平衡精度)、 GMean(几何平均)、F1(F1得分)、 IG(信息增益)、AUC(ROC曲线下方图面积)以及本文提出的两个新准则GAF和GBF. 在16个来自UCI的不平衡数据集上进行了仿真实验; 对实验结果的统计分析表明, 不同的准则对分类器性能的影响有显著差异. 即便是对于先进的学习方法SVM而言, 若以精度准则最大化选择分类器, 那么得到的SVM分类器也容易偏向预测多类(majority class). 然而, 通过在其他准则上优化, 我们能输出纠偏了的SVM分类器, 它们的整体性能更高, 尤其是在预测少类(minor class)能力方面得到了显著提高. 进一步地, 仿真实验发现在GAF以及GBF准则上优化所得的SVM分类器具有稳定且良好的性能, 这表明它们是值得采用的评价准则.  相似文献   

2.
用于不平衡数据分类的模糊支持向量机算法   总被引:1,自引:0,他引:1  
作为一种有效的机器学习技术,支持向量机已经被成功地应用于各个领域.然而当数据不平衡时,支持向量机会产生次优的分类模型;另一方面,支持向量机算法对数据集中的噪声点和野点非常敏感.为了克服以上不足,提出了一种新的用于不平衡数据分类的模糊支持向量机算法.该算法在设计样本的模糊隶属度函数时,不仅考虑训练样本到其类中心距离,而且考虑样本周围的紧密度.实验结果表明,所提模糊支持向量机算法可以有效地处理不平衡和噪声问题.  相似文献   

3.
面向不平衡数据集的一种精化Borderline-SMOTE方法   总被引:2,自引:0,他引:2  
合成少数类过采样技术(SMOTE)是一种被广泛使用的用来处理不平衡问题的过采样方法,SMOTE方法通过在少数类样本和它们的近邻间线性插值来实现过采样.Borderline-SMOTE方法在SMOTE方法的基础上进行了改进,只对少数类的边界样本进行过采样,从而改善样本的类别分布.通过进一步对边界样本加以区分,对不同的边界样本生成不同数目的合成样本,提出了面向不平衡数据集的一种精化Borderline-SMOTE方法(RB-SMOTE).仿真实验采用支持向量机作为分类器对几种过采样方法进行比较,实验中采用了10个不平衡数据集,它们的不平衡率从0.064 7到0.536 0.实验结果表明:RB-SMOTE方法能有效地改善不平衡数据集的类分布的不平衡性.  相似文献   

4.
基于支持向量机的不平衡数据分类的改进欠采样方法   总被引:3,自引:0,他引:3  
支持向量机作为一种有监督分类算法,具有小样本,非线性等独特优势,但其在处理不平衡数据分类时效果不够理想.欠采样是一类常用的数据重构方法,它被广泛用于解决不平衡数据的分类问题,然而,传统的随机欠采样方法受随机性影响,稳定性较差.提出一种改进的欠采样方法,并应用在支持向量机上进行分类对比实验.实验结果表明,相比传统随机欠采样方法,该方法的稳定性更好,且在许多情况下可以提高支持向量机对不平衡数据的分类性能.  相似文献   

5.
针对不平衡数据集数据分布不均匀及边界模糊的特点,提出基于局部密度改进的SVM不平衡数据集分类算法.该算法先将多数类划分成多个子类,并依据子类内每个样本的局部密度选出边界区域、靠近边界区域的与少数类数目相等的样本,与少数类完成SVM初始分类;用所得的支持向量机和剩余的多数类样本对初始分类器进行迭代优化.结果表明,与WSVM,ALSMOTE-SVM和基本SVM算法相比,该算法分类效果良好,能有效改进SVM算法在分布不均匀及边界模糊数据集上的分类性能.  相似文献   

6.
针对不平衡数据集数据分布不均匀及边界模糊的特点,提出一种新的近邻密度SVM(NNDSVM)不平衡数据集分类算法。该算法先计算多数类中每个样本K近邻范围内的密度值,依据该密度值分别选出边界区域、靠近边界区域的与少数类数目相等的样本与少数类完成SVM初始分类;用所得的支持向量机和剩余的多数类样本对初始分类器迭代优化。人工数据集和UCI数据集的实验结果表明,与SVM、ALSMOTE-SVM和WSVM算法相比,本文算法分类效果良好,能有效改进SVM算法在分布不均匀及边界模糊数据集上的分类性能。  相似文献   

7.
类别不平衡数据的分类问题是数据挖掘及机器学习过程中的一个研究热点,基于代价敏感学习方法通常用于解决类别不平衡数据分类问题,然而,它在实际应用过程中通常因样本的误分类成本未知而受到限制.针对此问题,文中采用群体智能算法优化样本的误分类代价.果蝇优化算法(Fruit fly optimization algorithm,F...  相似文献   

8.
针对传统模糊支持向量机算法采用样本到类中心的距离关系来构建模糊隶属度函数存在不足,以及易受数据集不平衡的影响,提出了一种基于高斯分布的FSVM,该方法既考虑了2类样本数量的不平衡问题,同时进一步考虑了样本不同方向上的分布特性.将样本的分布特性应用于模糊隶属度函数的设计,有效地提高了对正常样本和噪声、野值样本的区分能力.实验结果表明,在处理不平衡和有噪声干扰的数据集时,该方法较传统的FSVM具有更强的鲁棒性.  相似文献   

9.
针对目前不平衡大数据分类算法分类效果较差的问题,提出基于随机森林模型的不平衡大数据分类算法。首先采用SVM(Support Vector Machine)支持向量机算法对不平衡大数据进行信息过滤,然后利用反k近邻法检测并消除离群点,通过增量主成分分析法去掉不平衡大数据中协方差矩阵存在的奇异性,并依据熵值法对其展开权重解析,进而提取不平衡大数据特征信息。将CART(Classification and Regression Trees)决策树当作不平衡大数据的基分类器,进而构建随机森林决策树分类器,最后将提取的不平衡大数据特征信息输入分类器中,实现不平衡大数据分类。实验结果表明,该算法对不平衡大数据的采样效果较好,并且分类精准度、稳定性和性能都较高。  相似文献   

10.
结合三支决策和合成少数过采样技术(synthetic minority over-sampling technique, SMOTE),提出了一种新的采样方法—三支过采样(three-way over-sampling, 3WOS)。3WOS通过对所有样本构建三支决策模型,选取该模型边界域中的样本作为关键样本进行SMOTE过采样,从而有效缓解样本聚集和分离问题,在一定程度上提高了分类器性能。该方法首先在少数类样本上应用三支决策和支持向量数据描述,将所有样本数据进行三分;其次,找出所有关键样本的k个最近邻少数类样本,并使用线性插值方式对每个关键样本合成新样本,然后形成新的少数类样本;最后,将更新后的样本集用于训练分类器。实验结果表明,3WOS方法比其他方法在基分类器上有较好的分类准确度、F-measure、G-mean和较少的代价值。  相似文献   

11.
准确识别轨面状态,可为列车牵引/制动性能提升提供关键依据。重点针对传统代价敏感学习应用在非均衡轨面状态识别中存在的同类别样本重要性不同和多数类精度下降等问题,提出一种基于注意力网络和代价敏感学习的轨面状态识别方法。该法首先利用迁移学习思想将均衡数据集的特征迁移到非均衡轨面状态数据集,减轻少数类样本误分类影响;其次在骨干网络ResNet18中引入卷积注意力机制模块,增强网络对目标区域的特征学习能力和全局特征信息的感知性能,调整优化网络权重参数;最后构造依据轨面状态样本重要性大小的自适应加权平衡损失函数,降低决策边界对困难样本中多数类的过拟合,获得更加平滑的决策边界。非均衡数据下的实验结果表明,在3种非均衡比下,所提方法的准确率和召回率分别达到96.00%、90.67%、86.33%,与目前常用的方法Focal相比,分别提升了7.00%、2.34%、3.00%。此外,该方法在提高少数类召回率的同时可有效维持多数类的召回率,并且降低了网络训练时间成本。  相似文献   

12.
针对基于钻孔数据的传统显式三维地质建模方法存在过程繁琐、模型质量难以保证等缺点,本文提出了一种基于机器学习的隐式三维地质建模方法,将地层三维建模问题转换为地下空间栅格单元的属性分类问题.分别基于支持向量机、BP神经网络等分类算法,实现了钻孔数据的自动三维地质建模.实际建模结果表明,对于有限、稀疏的钻孔数据,支持向量机方法建模准确率较高,建模效率、效果优于显式建模方法.最后通过敏感性分析研究了超参数对建模结果准确率、模型形态的影响,为可控的自动三维地质建模提供了一种新的解决思路.  相似文献   

13.
针对kNN分类算法对不平衡数据进行分类可能偏向多数类的问题,提出了象限壳近邻分类算法。该算法仅选择测试样本象限方向上的最近邻的训练样本来判断其所属类别,从而有效地避免了kNN算法对选取k个最近邻训练样本时可能产生偏向多数类的问题。通过在UCI真实不平衡数据集上的实验,该文提出的分类算法在Recall、F-value和G-mean等评价标准明显优于传统的kNN分类算法。  相似文献   

14.
统计机器学习研究   总被引:1,自引:1,他引:0  
通过将正则化框架引入到统计学习中来,介绍了几种当前流行的统计学习机器,分析了他们的性能,并探讨了快速求解算法.  相似文献   

15.
传统的分类算法大多假设数据集是均衡的,追求整体的分类精度.而实际数据集经常是不均衡的,因此传统的分类算法在处理实际数据集时容易导致少数类样本有较高的分类错误率.现有针对不均衡数据集改进的分类方法主要有两类:一类是进行数据层面的改进,用过采样或欠采样的方法增加少数类数据或减少多数类数据;另一个是进行算法层面的改进.本文在原有的基于聚类的欠采样方法和集成学习方法的基础上,采用两种方法相结合的思想,对不均衡数据进行分类.即先在数据处理阶段采用基于聚类的欠采样方法形成均衡数据集,然后用AdaBoost集成算法对新的数据集进行分类训练,并在算法集成过程中引用权重来区分少数类数据和多数类数据对计算集成学习错误率的贡献,进而使算法更关注少数数据类,提高少数类数据的分类精度.  相似文献   

16.
论述基于核函数的方法,包括支持向量机的分类、聚类与回归算法,基于核的Fisher判别分析、感知机和主成分分析,介绍学习算法、简化算法和多类分类等研究课题,及基于核函数方法的应用.  相似文献   

17.
首次将蛋白质结构域边界检测问题归结为非平衡数据学习问题, 提出一种新的欠采样方法, 即在支持向量机特征空间中对与正类样本具有距离最大熵值的负类样本进行采样. 以经过筛选的蛋白质结构域数据库作为实验数据, 支持向量机学习系统的平均预测准确率可达80%, 同时具有较高的敏感性和特异性.  相似文献   

18.
一种基于支持向量机的直推式学习算法   总被引:6,自引:0,他引:6  
直推式支持向量机(Transductive Support Vector Machine,TSVM)是标准的支持向量机算法在半监督学习问题上的一种扩展,但已有的TSVM算法存在训练速度慢、回溯式学习多、学习性能不稳定等缺点,针对这些问题提出一种改进的直推式支持向量机算法———ITSVM,该算法较准确地确定了待训练的未标识样本中的正负样本数问题,有效解决了传统TSVM中过多的回溯式学习问题,同时该算法也无需利用过多的未标识训练样本,从而减轻了计算强度.实验表明,ITSVM相比TSVM在分类正确率、分类速度以及使用的样本规模上,都表现出了一定的优越性.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号