首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 109 毫秒
1.
传统的分类算法大多假设数据集是均衡的,追求整体的分类精度.而实际数据集经常是不均衡的,因此传统的分类算法在处理实际数据集时容易导致少数类样本有较高的分类错误率.现有针对不均衡数据集改进的分类方法主要有两类:一类是进行数据层面的改进,用过采样或欠采样的方法增加少数类数据或减少多数类数据;另一个是进行算法层面的改进.本文在原有的基于聚类的欠采样方法和集成学习方法的基础上,采用两种方法相结合的思想,对不均衡数据进行分类.即先在数据处理阶段采用基于聚类的欠采样方法形成均衡数据集,然后用AdaBoost集成算法对新的数据集进行分类训练,并在算法集成过程中引用权重来区分少数类数据和多数类数据对计算集成学习错误率的贡献,进而使算法更关注少数数据类,提高少数类数据的分类精度.  相似文献   

2.
基于加权超球支持向量机算法的超文本分类研究   总被引:3,自引:0,他引:3  
为提高超文本分类算法的性能,降低算法的复杂度,提出一种适用于超文本分类的加权超球支持向量机算法.该算法综合文档内容信息和超链接信息作为文档特征向量,针对传统超球支持向量机算法在不同类别样本数目不均衡时训练分类错误倾向于样本数目小的类别的问题,利用加权因子补偿了类别差异对算法推广性能造成的不利影响.在基准数据集上的测试结果表明,该算法降低了二次规划的复杂度,提高了分类器的分类性能.  相似文献   

3.
一种基于投票的不平衡数据分类集成算法   总被引:1,自引:1,他引:0  
不平衡数据分类是机器学习的研究热点之一。传统的机器学习分类算法通常假定用于训练的数据集是平衡的,不能直接应用于不平衡数据分类。利用朴素贝叶斯和决策树对数据不平衡的敏感度不同,提出一种基于投票的不平衡数据分类集成算法。基分类器选择NB和C4.5,通过投票平均方法进行分类决策;并选择公开的不平衡数据集进行实验验证。实验结果表明,该算法能有效提高不平衡数据的分类性能,特别是对正类(少数类)的误报率较低,具有良好的鲁棒性。  相似文献   

4.
提出了随机平衡数据采样算法,以此为基础对Ada Boost算法进行修改并构建了随机平衡集成分类算法,采用6组UCI数据集对随机平衡集成分类算法进行实验,并与SMOTEBoost算法、RUSBoost算法、AdaBoost算法进行比较.实验结果表明,随机平衡数据集成算法具有更好的分类性能,在处理不平衡数据集方面有一定的优势,具有较强的多元性和鲁棒性.  相似文献   

5.
不平衡数据的分类是机器学习的热点问题.传统的分类方法在分类时会倾向于多数类而使得分类精度不高.对不平衡数据集的分类,提出一种基于FCM结合KFDA方法,首先采用FCM算法对样本数据进行聚类,将数据聚类后的样本数据映射到特征空间里,再采用KFDA算法对数据进行分类,可以克服不平衡数据对分类性能的影响.对UCI数据集进行仿真实验,结果表明FCM-KFDA算法可以有效地提高数据识别率.  相似文献   

6.
数据流广泛应用于现实世界的多个领域,但是不平衡数据流的存在严重影响了传统数据流分类器的性能.针对不平衡数据流问题,提出了随机平衡采样算法(RBS)处理数据流的不平衡问题,并以RBS算法为基础提出了随机平衡采样数据流集成算法(RBSSEA)旨在解决不平衡数据流的分类问题.最后,分别采用合成和真实数据集对RBSSEA算法进行验证,实验结果证明RBSSEA算法在解决不平衡数据流分类问题具有一定的优势.  相似文献   

7.
在大脑胶质瘤诊断数据集中.病例样本数通常比正常样本数要少,由此引发了数据不均衡问题下病例诊断的问题.此外,在大脑胶质瘤数据集中有一些冗余甚至是不相关的特征,这些特征降低了学习器的泛化能力.为解决这类问题,提出一种基于互信息特征选择的EasyEnsemble算法来解决大脑胶质瘤诊断中的数据不均衡问题.在UCI数据集和大脑胶质瘤数据集上的实验结果表明新算法提高了分类器在不均衡数据集上的分类性能和预报能力.  相似文献   

8.
针对分类算法在非平衡数据集的情况下分类性能不理想的问题,总结了常见的数据平衡化方法,包括改造数据集与改进算法,提出一种全新的基于最大平衡度的自适应随机抽样算法,进一步优化了随机森林算法的分类效果.将其应用在随机森林算法的数据预处理阶段,并通过实验证明了该随机抽样方法的有效性,在合理的整体精度范围内能够较好地处理非平衡数据.产生的新数据比较拟合初始数据,能够提高分类器处理非平衡数据的能力.  相似文献   

9.
不平衡数据广泛存在于现实世界中,严重影响了传统分类器的分类性能。本文提出了随机平衡采样算法(random balance sampling,RBS),并以此为基础提出了随机平衡采样bagging算法(RBSBagging)用于解决不平衡数据集的分类问题。最后,采用6组UCI数据集对提出的分类算法进行验证,结果表明本文提出的RBSBagging算法可以较好地解决不平衡数据集的分类问题。  相似文献   

10.
一种基于级联模型的类别不平衡数据分类方法   总被引:6,自引:0,他引:6  
真实世界问题中,不同类别的样本在数目上往往差别很大,而传统机器学习方法难以对小类样本进行正确分类,若小类的样本是足够重要的,就会带来较大的损失.因此,对类别分布不平衡数据的学习已成为机器学习目前面临的一个挑战.受计算机视觉中级联模型的启发,提出一种针对不平衡数据的分类方法BalanceCascade.该方法逐步缩小大类别使数据集趋于平衡,在此过程中训练得到的一系列分类器通过集成方式对预测样本进行分类.实验结果表明,该方法可以有效地提高在不平衡数据上的分类性能,尤其是在分类性能受数据的不平衡性严重影响的情况下.  相似文献   

11.
基于非平衡数据的随机森林分类算法改进   总被引:1,自引:0,他引:1  
随机森林算法作为一种组合分类器有较好的分类性能,适合多样的分类环境。算法同样也存在一些缺陷,例如算法处理非平衡数据时不能很好地区分正类和负类。针对这一问题,通过对抽样结果增加约束条件来改进Bootstrap重抽样方法,减少抽样对非平衡性的影响,同时尽量保证算法的随机性。之后利用生成数据的非平衡系数给每棵决策树进行加权处理,提升对非平衡数据敏感的决策树在投票环节的话语权,从而提升整体算法对非平衡数据的分类性能。通过上述两种改进可以明显提高随机森林在决策树数量不足情况下的分类精度。  相似文献   

12.
一种不平衡数据的分类方法   总被引:1,自引:0,他引:1  
针对一个球的模式分类(SSPC)方法没有考虑样本分布不平衡的问题,提出一种不平衡数据的分类方法.该方法引入类权重因子和样本权重因子,通过一个超球面将两类数据以最大分离比率分离,从而提高不平衡数据对正类分类和预测的性能.实验结果表明,该方法可以有效提高不平衡数据的分类性能.  相似文献   

13.
针对SMOTE算法和随机森林可较好解决不平衡数据集的分类问题但对少数类样本分类效果还有待提高的问题,融合Canopy和K-means两种聚类算法,设计了C-K-SMOTE改进算法。先后利用Canopy算法进行快速近似聚类,再利用K-means算法进行精准聚类,得到精准聚类簇,最后利用SMOTE算法增加少数类样本数量,使数据趋于平衡。选取公开数据集KEEL(knowledge extraction on evolutionary learning)数据库中的不平衡数据集,结合随机森林分类模型进行了实验验证,实验表明C-K-SMOTE算法可有效平衡不平衡数据集。  相似文献   

14.
林泳昌  朱晓姝 《广西科学》2020,27(3):276-283
针对在数据样本不均衡时,K近邻(K-nearest Neighbor,KNN)方法的预测结果会偏向样本数占优类的问题,本文提出了一种基于合成少数类过采样方法(SMOTE)的KNN不均衡样本分类优化方法(KSID)。该方法过程为:首先使用SMOTE方法将不均衡的训练集均衡化,并训练逻辑回归模型;然后使用逻辑回归模型对训练集进行预测,获取预测为正样本的数据,通过使用SMOTE方法均衡化该正样本,并训练KNN模型;最后把测试集放入该结合逻辑回归方法的KNN模型进行预测,得到最终的预测结果。围绕6个不均衡数据集,将KSID与逻辑回归、KNN和支持向量机(SVM)决策树等方法进行对比实验,结果表明,KSID方法在准确率、查全率、查准率、F1值这4个性能指标上均优于其他3种方法。通过引入SMOTE,KSID方法克服了KNN模型遇到样本不均衡数据集时,产生分类偏向的问题,为进一步研究KNN方法的优化和应用提供参考。  相似文献   

15.
针对传统BP神经网络受初始权阈值影响大且易陷入局部极值,标准天牛须搜索算法局部搜索能力差、寻优精度低等问题,提出一种自适应步长因子的混沌天牛群算法用于优化BP神经网络分类模型。通过增加天牛种群,引入自适应步长更新策略优化天牛须搜索算法的局部搜索能力,使其跳出局部最优,提高算法的计算精度;利用Logisitic混沌映射产生新个体,替换性能较差的个体,增强全局搜索效果。为了改善BP神经网络对非均衡数据集中少数类的分类效果,采用SMOTE算法处理非均衡数据集。将改进的天牛须搜索算法用于优化BP神经网络中的初始权值和阈值,建立IBAS-BPNN(Improved Beetle Antennae Search and Back Propagation Neural Network)分类模型,提高BP神经网络分类模型的准确率。为验证分类模型的性能,将改进的BP神经网络分类模型与其他六种典型的分类算法进行比较,实验结果表明IBAS-BPNN分类模型的平均分类正确率高于其他算法。改进的混沌天牛群算法泛化能力强,鲁棒性好,具有一定的优越性。  相似文献   

16.
针对传统文本分类算法的分类精度低和计算复杂度高的问题,提出一种基于加权频繁子图挖掘的图模型文本分类算法。首先将文档集表示成图集;然后运用加权图挖掘算法提取频繁子图;最后,对特征向量进行分类。提出的算法仅提取最重要的子图,使其整体具有较好的分类效果和较高的计算效率。为评估该算法有效性,将其与多种现有分类算法分别对一个数据集进行分类实验,实验结果表明,提出的算法具有更高的识别精度和更少的运行时间。  相似文献   

17.
基于Shapelet的时间序列分类算法具有可解释性强、准确率高、速度快的优点,然而在Shapelet发现过程中存在Shapelet产生冗余和形式局限的缺点,严重制约了算法性能的提高。针对这一问题,提出一种基于优化Shapelet的时间序列分类算法,该方法首先利用K-means生成典型的Shapelet候选集,加速Shapelet的生成过程;然后,融合相似性和类标差异性提出Shapelet的选取模型,确保Shapelet的多样性和精简性;最后,提出优化策略获取最佳的Shapelet,并以此为基础实施时间序列分类。实验结果表明,该方法具有较高的分类准确率,并对位移和扭曲特征明显的数据集具有良好的分类效果。  相似文献   

18.
针对数据挖掘中的文本分类问题,提出了一种基于遗传算法和信息熵的文本分类规则抽取算法Genet-ic-Miner(简称GM),该算法的目标是在数据集中发现分类规则。首先利用信息熵生成初始种群,然后利用优化的遗传算法抽取相应规则。采用六个标准的公共领域的数据集比较了GM与其它两个非常著名的同类算法Ant-Miner和CN2,实验结果表明,无论是预测准确性和规则的简单性,GM都明显优于Ant-Miner和CN2,并且该算法能大大提高对知识的理解力。  相似文献   

19.
为解决微阵列数据中因样本量少且每个样本的维度高而带有大量干扰信息和冗余信息的问题, 通过分阶段的步骤对特征基因集进行全方位的选取和优化。考虑到单个基因在不同环境中的差异性, 从中选择出只在特定条件下差异较大的基因构成候选特征集; 剔除候选特征集中相关性较小的基因; 采用遗传算法对所得特征集的任意子集的整体分类性能进行考查, 选出较优的子集。实验结果表明, 该算法对逐步选取特征基因具有可行性和有效性, 而特征基因集在分类适应度(分类能力度量)和分类准确率均比原始数据更好。  相似文献   

20.
介绍了一种基于模糊规则和遗传算法的分类算法.首先给出一种模糊规则提取方法,然后遗传算法对模糊规则进行优化选择,最后对不能识别的样本启动触发器.该算法可以在保证分类正确性高的前提下尽量减少规则数,并提高样本识别能力.用Iris数据对该分类系统进行仿真,结果表明该系统具有良好的分类能力和精简规则能力.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号