首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 359 毫秒
1.
《河南科学》2017,(8):1227-1231
针对不均衡数据集下分类超平面偏移导致直推式支持向量机样本标记准确率低的问题,结合动态代价和TSVM算法,提出一种代价敏感的TSVM算法,该算法依据类样本的空间分布信息计算类错分代价,利用KKT条件选择对当前分类超平面有影响的样本加入下一轮迭代,该算法可以提高初始分类器的分类性能,减少错误的传递和累积,从而提高标注准确率,增强最后分类器的泛化性能.最后在UCI数据集上的实验结果表明该算法在不均衡数据集下的有效性.  相似文献   

2.
3.
提出一种基于核学习的采样算法来处理支持向量机(support vector machine,SVM)在非平衡数据集上的分类问题,其核心思想是首先在核空间中对少数类样本进行上采样,然后通过输入空间和核空间的距离关系寻找所合成样本在输入空间的原像,最后再采用SVM对其进行训练,从而有效克服在不同空间处理训练样本所带来的数据不一致问题.另一方面,该算法在增加少数类样本数量,减小数据失衡程度的同时有效拓展了少数类样本所形成的凸壳,从而能够更为有效纠正最优分类超平面偏移问题,使获得的结果分类器具有更好的泛化性能,实验结果证明了该算法的高效性.  相似文献   

4.
采用两阶段策略模型(KTSVM)的P2P流量识别方法   总被引:2,自引:0,他引:2  
针对识别加密P2P网络流量比较困难的问题,提出一种基于K均值和直推式支持向量机(TSVM)的半监督学习模型———两阶段策略模型(KTSVM,k-means based transductive supportvector machine),以提高P2P流量的识别精度.该模型首先使用K均值半监督聚类算法计算训练集中正例样本的数目,然后根据正例样本的数目来训练TSVM分类模型,提高了TSVM模型的稳定性和准确性.该模型的优势是可以使用未标注样本和标注样本共同训练分类模型,非常适合于识别标注比较困难的P2P流量.实验结果表明,在标注样本较少的情况下,该模型的识别精度和稳定性均优于TSVM模型和SVM模型.  相似文献   

5.
一种基于支持向量机的直推式学习算法   总被引:6,自引:0,他引:6  
直推式支持向量机(Transductive Support Vector Machine,TSVM)是标准的支持向量机算法在半监督学习问题上的一种扩展,但已有的TSVM算法存在训练速度慢、回溯式学习多、学习性能不稳定等缺点,针对这些问题提出一种改进的直推式支持向量机算法———ITSVM,该算法较准确地确定了待训练的未标识样本中的正负样本数问题,有效解决了传统TSVM中过多的回溯式学习问题,同时该算法也无需利用过多的未标识训练样本,从而减轻了计算强度.实验表明,ITSVM相比TSVM在分类正确率、分类速度以及使用的样本规模上,都表现出了一定的优越性.  相似文献   

6.
为解决油层识别中存在的获得有标记数据的代价过高,有标记数据稀少的问题,提出一种新的基于分支定界的半监督支持向量机(branch and bound for semi-supervised support vector machine,BBS3VM)的油层识别方法。此方法主要将半监督学习(semi-supervised learning, SSL)和分支定界的思想引入到支持向量机(support vector machine, SVM)分类算法中。通过半监督学习的思想,使用大量未标记的样本来改善学习性能,利用分支定界算法提高半监督支持向量机(semi-supervised support vector machine,S3VM)算法的分类精度,将此改进算法应用于测井数据挖掘中的油层识别。经过对某油田的实际测井资料进行处理,实验结果表明,半监督油层识别方法要优于传统的S3VM分类算法,识别率更高,分类效果更显著,与全监督的SVM算法相比较,得到相差不大的分类精度的同时,速度更快。  相似文献   

7.
适用于加权样本集处理的加权支持向量机方法   总被引:1,自引:0,他引:1  
为了处理模式识别问题中具有加权信息的样本集,提出一种加权支持向量机(weighted support vector machine,WSVM)算法,并对算法进行了理论分析.通过引入样本与超平面加权距离的概念,使得WSVM算法可以对样本的权值信息进行有效处理.针对未明确给出权值分布的样本集,提出一种基于类间中心距离确定权值的经验方法,对加权支持向量机算法采用交叉验证技术在人工及真实数据上进行了仿真,结果表明,加权支持向量机比标准支持向量机具有更小的误识率和更好的稳定性.  相似文献   

8.
针对直推式支持向量机错误累积及获取无标记样本空间信息慢的问题,结合Tri-training算法、KKT条件及富信息策略提出一种基于Tri-training的直推式支持向量机算法,用KKT条件选择标注样本,用富信息策略选择加入的分类器,利用多个分类器的投票结果进行标注,提高样本标注的准确度,利用多个分类器进行协同训练提高算法的训练速度.最后实验结果表明,算法能够提高最终分类器的分类精度和算法的训练速度.  相似文献   

9.
故障数据样本和正常运行数据样本量的不均衡将导致支持向量机在构建故障分类超平面时发生偏移,降低了基于支持向量机的故障诊断的诊断准确率. 针对该问题,文中提出一种能够自动调整风险惩罚因子的新型支持向量机. 该方法能够自举式地对有效样本进行挑选,并加大高信息量数据样本的风险惩罚因子,抑制样本不均衡导致的分类超平面偏移,进而提高故障诊断的准确性. 所提方法被用于变压器故障诊断实验,实验过程中正负样本的风险损失始终相等,有效地抑制了样本不均衡现象对诊断造成的影响,验证了所提算法的有效性.   相似文献   

10.
张燕 《河南科学》2018,(1):11-16
针对网络行为数据的不均衡、数量大、更新快的问题,结合均衡化、增量学习、分类器集成思想提出一种用于网络入侵检测的协同增量支持向量机算法,该算法利用多个分类器的协同工作,提高算法速度,每个子分类器依据类样本的空间分布计算类样本错分代价,避免分类超平面偏移,对多个子分类器进行加权集成获得最终分类器,提高最终分类器在不均衡数据集下的分类性能.最后,在KDDCUP1999数据集上的仿真实验结果表明,该算法对整体准确率、少数类及未知攻击都有较高的检测准确率.  相似文献   

11.
传统的分类算法大多假设数据集是均衡的,追求整体的分类精度.而实际数据集经常是不均衡的,因此传统的分类算法在处理实际数据集时容易导致少数类样本有较高的分类错误率.现有针对不均衡数据集改进的分类方法主要有两类:一类是进行数据层面的改进,用过采样或欠采样的方法增加少数类数据或减少多数类数据;另一个是进行算法层面的改进.本文在原有的基于聚类的欠采样方法和集成学习方法的基础上,采用两种方法相结合的思想,对不均衡数据进行分类.即先在数据处理阶段采用基于聚类的欠采样方法形成均衡数据集,然后用AdaBoost集成算法对新的数据集进行分类训练,并在算法集成过程中引用权重来区分少数类数据和多数类数据对计算集成学习错误率的贡献,进而使算法更关注少数数据类,提高少数类数据的分类精度.  相似文献   

12.
Support vector machine(SVM) is an important classification tool in the pattern recognition and machine learning community,but its training is a time-consuming process.To deal with this problem,we propose a novel method to mine the useful information about classification hidden in the training sample for improving the training algorithm,and every training point is assigned to a value that represents the classification information,respectively,where training points with the higher values are chosen as candidate support vectors for SVM training.The classification information value for a training point is computed based on the classification accuracy of an appropriate hyperplane for the training sample,where the hyperplane goes through the mapped target of the training point in feature space defined by a kernel function.Experimental results on various benchmark datasets show the effectiveness of our algorithm.  相似文献   

13.
偏标记学习是近几年提出的新机器学习框架,已有的逻辑回归偏标记算法尚不能解决数据不平衡问题.建立了一种可以解决数据不平衡的逻辑回归模型偏标记学习算法.基本思想是在多元逻辑回归模型中定义新的似然函数以达到处理不平衡数据的目的.算法先根据训练集中各个类别样本所占比例定义了一个新的似然函数,之后通过逼近和求导等数学手段推导得到了能够求解的光滑的逻辑回归偏标记学习模型.在UCI数据集和真实数据集上的仿真实验表明,所提算法在数据存在不平衡问题时提高了样本的平均分类精度.  相似文献   

14.
地震属性可以用来解释与预测地质构造,因此地震属性被广泛地运用在煤矿地质构造的识别。但一般情况下,勘探区中无构造区域与有构造区域分布不均衡,无构造区域远远多于有构造区域。机器学习中,传统的分类器更习惯于偏向多数类,这使得如何有效地识别出构造体成为一个难题。为了解决这一问题,提出了一种针对不平衡数据集的改进极限梯度提升(extreme gradient boosting, XGBoost)构造识别方法。该方法的原理是,首先,以基于三维地震勘探成果数据体提取的12种地震属性为数据集特征,以实际揭露后的地质构造为数据集标签构建多属性数据集,然后以特征对标签的相关性为标准,过滤掉冗余的特征;其次,将边界样本分类算法(boundary sample classification, BSC)与合成少数类过采样技术(synthetic minority over-sampling technique, SMOTE)相结合形成BSC-SMOTE算法。用BSC-SMOTE算法对原始数据集进行平衡,再利用平衡后的数据集训练XGBoost分类器,并用贝叶斯优化(Bayesian optimization, B...  相似文献   

15.
基因表达谱数据一般来源于临床试验,而在临床试验中,试验样本的类分布情况是不确定的,这就使得表达谱数据往往具有比较明显的不平衡性.采用加权极限学习机来对不平衡基因表达谱数据进行分类,为了减少因为不平衡数据引起的分类误差,一个临时的权重被分配给每一个样本以增强少样本类的影响,同时减少多样本类的影响,进而提高肿瘤分类的准确率.实验结果表明,所提方法能够提高少样本类的识别率,从而提高分类器的总体性能.  相似文献   

16.
杜娟 《科学技术与工程》2011,11(12):2680-2685
传统的K-最邻近(K Nearest Neighbor,KNN)分类算法在处理不均衡样本数据时,其分类器预测倾向于多数类,少数类分类误差大。针对此问题从数据层的角度改进了传统的KNN算法。先通过K-means聚类算法将少数类样本聚类分组,将每个聚类内的样本作为遗传算法的初始种群;再使用遗传交叉和变异操作获取新样本,并进行有效性验证。最终获取到各类别样本数量基本均衡的训练样本集合。实验结果表明此方法有效改善了KNN算法对少数类分类效果。此法同时适用于其他关注少数类分类精度的不均衡数据集分类问题。  相似文献   

17.
随机森林在分类不平衡数据时,容易偏向多数类而忽略少数类,可以将代价敏感用于分类器的训练,但在传统代价敏感随机森林算法中,代价函数没有考虑样本集实际分布与特征权重,且在随机森林投票阶段,没有考虑基分类器的性能差异。本文提出一种改进的代价敏感随机森林算法ICSRF,该算法首先根据不平衡数据集的实际分布构造代价函数,并将权重距离引入代价函数,然后根据基分类器的性能采取权重投票,提高分类准确率。实验结果表明,ICSRF算法能有效提高少数类的分类性能,可以较好的处理不平衡数据。  相似文献   

18.
利用车辆传动系统试验数据对车辆进行故障诊断和性能评价可以实现车辆故障预警,提高可靠性,从而提高车辆性能,但测试数据有数据量大、不平衡、维度高、噪声多的特征,使得传统数据分析算法会产生次优的分类模型.针对上述问题,提出了一种改进的不平衡数据分类支持向量机算法.该算法赋予各样本不同的权值,用马氏距离改进模糊隶属度的设计以排除变量相关性干扰,同时可以输出正常状态下的故障概率.实验结果表明,该算法能够有效提高故障诊断的准确性,概率输出模型可用于故障预警和性能分析.   相似文献   

19.
为了提高半监督分类的有效性,提出一种基于交叉验证思想的半监督分类方法(CV-S3VM)。通过对未标记样本进行伪标记,将伪标记后的样本加入到标记样本集中,参与交叉验证,选取能使SVM分类器误差最小的标记作为最终的标记,实现对未标记样本进行标记。依次挖掘未标记样本的隐含信息,增加标记样本的数目。使用UCI数据集模拟半监督分类实验环境,结果表明CV-S3VM具有较高的分类率,在标记样本较少的情况下效果更为明显。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号