首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 0 毫秒
1.
带概念漂移不平衡流数据分类研究是机器学习和现实应用领域的一个难点和热点.针对带概念漂移不平衡流数据的动态性和不平衡性,本文中提出了随机平衡采样算法用于再平衡不平衡数据流.之后,在随机平衡采样算法的基础上提出了一种新的处理带概念漂移的不平衡流数据集成分类算法用于抵抗流数据的概念漂移和不平衡性.理论和实验表明本文中提出的集成分类算法对处理带概念漂移的不平衡流数据较强的多样性和泛化能力.  相似文献   

2.
数据流广泛存在于现实应用中,重现概念漂移和数据分布不平衡性是其重要特性,它们会导致传统数据流分类器负偏离、性能下降及学习时间倍增。针对重现概念漂移和数据分布不平衡的特点,本文提出重现概念漂移不平衡数据流的随机平衡采样集成分类算法(RBSRISEA),首先用随机平衡采样算法重新平衡数据分布,之后对预处理的数据流再进行重现概念漂移探测。实验表明,RBSRISEA对重现概念漂移有较强的敏感性和泛化能力。RBSRISEA可以处理带重现概念漂移的不平衡数据流分类问题。  相似文献   

3.
基于软件大数据的自动化缺陷检测模型已成为缺陷发现的重要工具.针对软件大数据中,被准确标定的缺陷样本稀少,且漏标、误标率高,导致现有机器学习数据平衡优化方法易使噪声加剧、分类边界模糊等问题,提出一种稳健边界强化GMM-SMOTE软件缺陷检测方法.该方法利用高斯混合聚类将软件集合划分为多簇,基于簇内类别比进行可靠样本筛选并且通过后验概率实现边界识别,用以指导完成加权数据平衡,最后利用平衡优化数据构建软件缺陷检测模型.在NASA多个公开数据集上的实验结果表明,GMM-SMOTE可实现噪声抑制、边界强化的数据平衡,有效提高了软件缺陷识别效果,实际应用价值大.   相似文献   

4.
一种不平衡数据的分类方法   总被引:1,自引:0,他引:1  
针对一个球的模式分类(SSPC)方法没有考虑样本分布不平衡的问题,提出一种不平衡数据的分类方法.该方法引入类权重因子和样本权重因子,通过一个超球面将两类数据以最大分离比率分离,从而提高不平衡数据对正类分类和预测的性能.实验结果表明,该方法可以有效提高不平衡数据的分类性能.  相似文献   

5.
数据流广泛应用于现实世界的多个领域,但是不平衡数据流的存在严重影响了传统数据流分类器的性能.针对不平衡数据流问题,提出了随机平衡采样算法(RBS)处理数据流的不平衡问题,并以RBS算法为基础提出了随机平衡采样数据流集成算法(RBSSEA)旨在解决不平衡数据流的分类问题.最后,分别采用合成和真实数据集对RBSSEA算法进行验证,实验结果证明RBSSEA算法在解决不平衡数据流分类问题具有一定的优势.  相似文献   

6.
即时软件缺陷预测针对项目开发与维护过程中的代码提交来预测是否会引入缺陷。在即时软件缺陷预测研究领域,模型训练依赖于高质量的数据集,然而已有的即时软件缺陷预测方法尚未研究数据集扩充方法对即时软件缺陷预测的影响。为提高即时软件缺陷预测的性能,提出一种基于数据集扩充的即时软件缺陷预测(prediction based on data augmentation,PDA)方法。PDA方法包括特征拼接、样本生成、样本过滤和采样处理4个部分。增强后的数据集样本数量充足、样本质量高且消除了类不平衡问题。将提出的PDA方法与最新的即时软件缺陷预测方法(JIT-Fine)作对比,结果表明:在JIT-Defects4J数据集上,F1指标提升了18.33%;在LLTC4J数据集上,F1指标仍有3.67%的提升,验证了PDA的泛化能力。消融实验证明了所提方法的性能提升主要来源于数据集扩充和筛选机制。  相似文献   

7.
面向不平衡数据集的一种精化Borderline-SMOTE方法   总被引:2,自引:0,他引:2  
合成少数类过采样技术(SMOTE)是一种被广泛使用的用来处理不平衡问题的过采样方法,SMOTE方法通过在少数类样本和它们的近邻间线性插值来实现过采样.Borderline-SMOTE方法在SMOTE方法的基础上进行了改进,只对少数类的边界样本进行过采样,从而改善样本的类别分布.通过进一步对边界样本加以区分,对不同的边界样本生成不同数目的合成样本,提出了面向不平衡数据集的一种精化Borderline-SMOTE方法(RB-SMOTE).仿真实验采用支持向量机作为分类器对几种过采样方法进行比较,实验中采用了10个不平衡数据集,它们的不平衡率从0.064 7到0.536 0.实验结果表明:RB-SMOTE方法能有效地改善不平衡数据集的类分布的不平衡性.  相似文献   

8.
一种基于投票的不平衡数据分类集成算法   总被引:1,自引:1,他引:0  
不平衡数据分类是机器学习的研究热点之一。传统的机器学习分类算法通常假定用于训练的数据集是平衡的,不能直接应用于不平衡数据分类。利用朴素贝叶斯和决策树对数据不平衡的敏感度不同,提出一种基于投票的不平衡数据分类集成算法。基分类器选择NB和C4.5,通过投票平均方法进行分类决策;并选择公开的不平衡数据集进行实验验证。实验结果表明,该算法能有效提高不平衡数据的分类性能,特别是对正类(少数类)的误报率较低,具有良好的鲁棒性。  相似文献   

9.
一种基于级联模型的类别不平衡数据分类方法   总被引:6,自引:0,他引:6  
真实世界问题中,不同类别的样本在数目上往往差别很大,而传统机器学习方法难以对小类样本进行正确分类,若小类的样本是足够重要的,就会带来较大的损失.因此,对类别分布不平衡数据的学习已成为机器学习目前面临的一个挑战.受计算机视觉中级联模型的启发,提出一种针对不平衡数据的分类方法BalanceCascade.该方法逐步缩小大类别使数据集趋于平衡,在此过程中训练得到的一系列分类器通过集成方式对预测样本进行分类.实验结果表明,该方法可以有效地提高在不平衡数据上的分类性能,尤其是在分类性能受数据的不平衡性严重影响的情况下.  相似文献   

10.
针对传统的SMOTE方法在类别区域重合的数据集应用时,可能产生多个更接近多数类的人工样例,甚至突破类别边界,从而影响整体分类性能的情况,提出了一种最近三角区域的SMOTE方法,使合成的人工样例只出现在少数类样例的最近三角区域内部,并且删除掉距离多数类更近的合成样例,从而使生成的样例更接近少数类,且不突破原始的类别边界。实验分别在人工数据集和改进的UCI数据集上进行,并和原始的SMOTE方法分别在G-mean和F-value的评价指标上进行了对比,实验结果验证了改进的SMOTE方法在类别区域有重合的数据集上要优于原始SMOTE方法。  相似文献   

11.
12.
针对不平衡数据集数据分布不均匀及边界模糊的特点,提出一种新的近邻密度SVM(NNDSVM)不平衡数据集分类算法。该算法先计算多数类中每个样本K近邻范围内的密度值,依据该密度值分别选出边界区域、靠近边界区域的与少数类数目相等的样本与少数类完成SVM初始分类;用所得的支持向量机和剩余的多数类样本对初始分类器迭代优化。人工数据集和UCI数据集的实验结果表明,与SVM、ALSMOTE-SVM和WSVM算法相比,本文算法分类效果良好,能有效改进SVM算法在分布不均匀及边界模糊数据集上的分类性能。  相似文献   

13.
结合三支决策和合成少数过采样技术(synthetic minority over-sampling technique, SMOTE),提出了一种新的采样方法—三支过采样(three-way over-sampling, 3WOS)。3WOS通过对所有样本构建三支决策模型,选取该模型边界域中的样本作为关键样本进行SMOTE过采样,从而有效缓解样本聚集和分离问题,在一定程度上提高了分类器性能。该方法首先在少数类样本上应用三支决策和支持向量数据描述,将所有样本数据进行三分;其次,找出所有关键样本的k个最近邻少数类样本,并使用线性插值方式对每个关键样本合成新样本,然后形成新的少数类样本;最后,将更新后的样本集用于训练分类器。实验结果表明,3WOS方法比其他方法在基分类器上有较好的分类准确度、F-measure、G-mean和较少的代价值。  相似文献   

14.
近年来,面向不平衡数据集的分类器学习与推广问题越来越受到人们的关注,在此以机器学习数据库、美国邮政编码、2维元音等国际上典型的分类问题为应用背景,重点研究如何用线性分类器解决样本数不平衡的问题;对Fisher、伪逆和单层感知器等3种典型的线性分类器做了深入的研究,并将这3种线性分类方法应用到不平衡数据集的分类中;通过实验及分析,这些新方法对平衡数据集的线性分类起到了良好的分类效果。  相似文献   

15.
基于支持向量机的不平衡数据分类的改进欠采样方法   总被引:3,自引:0,他引:3  
支持向量机作为一种有监督分类算法,具有小样本,非线性等独特优势,但其在处理不平衡数据分类时效果不够理想.欠采样是一类常用的数据重构方法,它被广泛用于解决不平衡数据的分类问题,然而,传统的随机欠采样方法受随机性影响,稳定性较差.提出一种改进的欠采样方法,并应用在支持向量机上进行分类对比实验.实验结果表明,相比传统随机欠采样方法,该方法的稳定性更好,且在许多情况下可以提高支持向量机对不平衡数据的分类性能.  相似文献   

16.
为解决不均衡多分类问题,提出一种特征选择和AdaBoost的集成方法。首先,数据进行预处理。利用WSPSO算法进行特征选择,根据特征重要性选取初始粒子构建初始种群,使得算法初期就可以沿着正确的搜索方向开展,减少不相关特征的影响。其次,利用AdaBoost算法对于样本权重较敏感的特点,增强对小类样本的关注度。并且利用AUCarea作为评价标准,相对于其他评价标准,AUCarea具有可视化的优点且对较差AUC更加敏感。最后,与其他几种不均衡分类算法在不平衡数据集上进行对比,结果证明该算法可有效处理不均衡多分类问题。  相似文献   

17.
18.
提出一种改进随机子空间与C4.5决策树算法相结合的分类算法.以C4.5算法构建决策树作为集成学习的基分类器,每次迭代初始,将SMOTE采样技术与随机子空间方法相结合,生成在特征空间和数据分布上差异明显的合成样例,为基分类器提供多样化的平衡训练数据集,采用绝大多数投票方法进行最终决策的融合输出.实验结果表明,该方法对少数类和多数类均具有较高的识别率.  相似文献   

19.
不平衡数据的分类是机器学习的热点问题.传统的分类方法在分类时会倾向于多数类而使得分类精度不高.对不平衡数据集的分类,提出一种基于FCM结合KFDA方法,首先采用FCM算法对样本数据进行聚类,将数据聚类后的样本数据映射到特征空间里,再采用KFDA算法对数据进行分类,可以克服不平衡数据对分类性能的影响.对UCI数据集进行仿真实验,结果表明FCM-KFDA算法可以有效地提高数据识别率.  相似文献   

20.
针对不平衡数据集的低分类准确性,提出基于蚁群聚类改进的SMOTE不平衡数据过采样算法ACC-SMOTE.一方面利用改进的蚁群聚类算法将少数类样本划分为不同的子簇,充分考虑类间与类内数据的不平衡,根据子簇所占样本的比例运用SMOTE算法进行过采样,从而降低类内数据的不平衡度;另一方面对过采样后的少数类样本采用Tomek ...  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号