共查询到19条相似文献,搜索用时 359 毫秒
1.
2.
3.
提出一种基于核学习的采样算法来处理支持向量机(support vector machine,SVM)在非平衡数据集上的分类问题,其核心思想是首先在核空间中对少数类样本进行上采样,然后通过输入空间和核空间的距离关系寻找所合成样本在输入空间的原像,最后再采用SVM对其进行训练,从而有效克服在不同空间处理训练样本所带来的数据不一致问题.另一方面,该算法在增加少数类样本数量,减小数据失衡程度的同时有效拓展了少数类样本所形成的凸壳,从而能够更为有效纠正最优分类超平面偏移问题,使获得的结果分类器具有更好的泛化性能,实验结果证明了该算法的高效性. 相似文献
4.
采用两阶段策略模型(KTSVM)的P2P流量识别方法 总被引:2,自引:0,他引:2
针对识别加密P2P网络流量比较困难的问题,提出一种基于K均值和直推式支持向量机(TSVM)的半监督学习模型———两阶段策略模型(KTSVM,k-means based transductive supportvector machine),以提高P2P流量的识别精度.该模型首先使用K均值半监督聚类算法计算训练集中正例样本的数目,然后根据正例样本的数目来训练TSVM分类模型,提高了TSVM模型的稳定性和准确性.该模型的优势是可以使用未标注样本和标注样本共同训练分类模型,非常适合于识别标注比较困难的P2P流量.实验结果表明,在标注样本较少的情况下,该模型的识别精度和稳定性均优于TSVM模型和SVM模型. 相似文献
5.
一种基于支持向量机的直推式学习算法 总被引:6,自引:0,他引:6
直推式支持向量机(Transductive Support Vector Machine,TSVM)是标准的支持向量机算法在半监督学习问题上的一种扩展,但已有的TSVM算法存在训练速度慢、回溯式学习多、学习性能不稳定等缺点,针对这些问题提出一种改进的直推式支持向量机算法———ITSVM,该算法较准确地确定了待训练的未标识样本中的正负样本数问题,有效解决了传统TSVM中过多的回溯式学习问题,同时该算法也无需利用过多的未标识训练样本,从而减轻了计算强度.实验表明,ITSVM相比TSVM在分类正确率、分类速度以及使用的样本规模上,都表现出了一定的优越性. 相似文献
6.
为解决油层识别中存在的获得有标记数据的代价过高,有标记数据稀少的问题,提出一种新的基于分支定界的半监督支持向量机(branch and bound for semi-supervised support vector machine,BBS3VM)的油层识别方法。此方法主要将半监督学习(semi-supervised learning, SSL)和分支定界的思想引入到支持向量机(support vector machine, SVM)分类算法中。通过半监督学习的思想,使用大量未标记的样本来改善学习性能,利用分支定界算法提高半监督支持向量机(semi-supervised support vector machine,S3VM)算法的分类精度,将此改进算法应用于测井数据挖掘中的油层识别。经过对某油田的实际测井资料进行处理,实验结果表明,半监督油层识别方法要优于传统的S3VM分类算法,识别率更高,分类效果更显著,与全监督的SVM算法相比较,得到相差不大的分类精度的同时,速度更快。 相似文献
7.
适用于加权样本集处理的加权支持向量机方法 总被引:1,自引:0,他引:1
为了处理模式识别问题中具有加权信息的样本集,提出一种加权支持向量机(weighted support vector machine,WSVM)算法,并对算法进行了理论分析.通过引入样本与超平面加权距离的概念,使得WSVM算法可以对样本的权值信息进行有效处理.针对未明确给出权值分布的样本集,提出一种基于类间中心距离确定权值的经验方法,对加权支持向量机算法采用交叉验证技术在人工及真实数据上进行了仿真,结果表明,加权支持向量机比标准支持向量机具有更小的误识率和更好的稳定性. 相似文献
8.
9.
故障数据样本和正常运行数据样本量的不均衡将导致支持向量机在构建故障分类超平面时发生偏移,降低了基于支持向量机的故障诊断的诊断准确率. 针对该问题,文中提出一种能够自动调整风险惩罚因子的新型支持向量机. 该方法能够自举式地对有效样本进行挑选,并加大高信息量数据样本的风险惩罚因子,抑制样本不均衡导致的分类超平面偏移,进而提高故障诊断的准确性. 所提方法被用于变压器故障诊断实验,实验过程中正负样本的风险损失始终相等,有效地抑制了样本不均衡现象对诊断造成的影响,验证了所提算法的有效性. 相似文献
10.
针对网络行为数据的不均衡、数量大、更新快的问题,结合均衡化、增量学习、分类器集成思想提出一种用于网络入侵检测的协同增量支持向量机算法,该算法利用多个分类器的协同工作,提高算法速度,每个子分类器依据类样本的空间分布计算类样本错分代价,避免分类超平面偏移,对多个子分类器进行加权集成获得最终分类器,提高最终分类器在不均衡数据集下的分类性能.最后,在KDDCUP1999数据集上的仿真实验结果表明,该算法对整体准确率、少数类及未知攻击都有较高的检测准确率. 相似文献
11.
传统的分类算法大多假设数据集是均衡的,追求整体的分类精度.而实际数据集经常是不均衡的,因此传统的分类算法在处理实际数据集时容易导致少数类样本有较高的分类错误率.现有针对不均衡数据集改进的分类方法主要有两类:一类是进行数据层面的改进,用过采样或欠采样的方法增加少数类数据或减少多数类数据;另一个是进行算法层面的改进.本文在原有的基于聚类的欠采样方法和集成学习方法的基础上,采用两种方法相结合的思想,对不均衡数据进行分类.即先在数据处理阶段采用基于聚类的欠采样方法形成均衡数据集,然后用AdaBoost集成算法对新的数据集进行分类训练,并在算法集成过程中引用权重来区分少数类数据和多数类数据对计算集成学习错误率的贡献,进而使算法更关注少数数据类,提高少数类数据的分类精度. 相似文献
12.
Support vector machine(SVM) is an important classification tool in the pattern recognition and machine learning community,but its training is a time-consuming process.To deal with this problem,we propose a novel method to mine the useful information about classification hidden in the training sample for improving the training algorithm,and every training point is assigned to a value that represents the classification information,respectively,where training points with the higher values are chosen as candidate support vectors for SVM training.The classification information value for a training point is computed based on the classification accuracy of an appropriate hyperplane for the training sample,where the hyperplane goes through the mapped target of the training point in feature space defined by a kernel function.Experimental results on various benchmark datasets show the effectiveness of our algorithm. 相似文献
13.
偏标记学习是近几年提出的新机器学习框架,已有的逻辑回归偏标记算法尚不能解决数据不平衡问题.建立了一种可以解决数据不平衡的逻辑回归模型偏标记学习算法.基本思想是在多元逻辑回归模型中定义新的似然函数以达到处理不平衡数据的目的.算法先根据训练集中各个类别样本所占比例定义了一个新的似然函数,之后通过逼近和求导等数学手段推导得到了能够求解的光滑的逻辑回归偏标记学习模型.在UCI数据集和真实数据集上的仿真实验表明,所提算法在数据存在不平衡问题时提高了样本的平均分类精度. 相似文献
14.
地震属性可以用来解释与预测地质构造,因此地震属性被广泛地运用在煤矿地质构造的识别。但一般情况下,勘探区中无构造区域与有构造区域分布不均衡,无构造区域远远多于有构造区域。机器学习中,传统的分类器更习惯于偏向多数类,这使得如何有效地识别出构造体成为一个难题。为了解决这一问题,提出了一种针对不平衡数据集的改进极限梯度提升(extreme gradient boosting, XGBoost)构造识别方法。该方法的原理是,首先,以基于三维地震勘探成果数据体提取的12种地震属性为数据集特征,以实际揭露后的地质构造为数据集标签构建多属性数据集,然后以特征对标签的相关性为标准,过滤掉冗余的特征;其次,将边界样本分类算法(boundary sample classification, BSC)与合成少数类过采样技术(synthetic minority over-sampling technique, SMOTE)相结合形成BSC-SMOTE算法。用BSC-SMOTE算法对原始数据集进行平衡,再利用平衡后的数据集训练XGBoost分类器,并用贝叶斯优化(Bayesian optimization, B... 相似文献
15.
基因表达谱数据一般来源于临床试验,而在临床试验中,试验样本的类分布情况是不确定的,这就使得表达谱数据往往具有比较明显的不平衡性.采用加权极限学习机来对不平衡基因表达谱数据进行分类,为了减少因为不平衡数据引起的分类误差,一个临时的权重被分配给每一个样本以增强少样本类的影响,同时减少多样本类的影响,进而提高肿瘤分类的准确率.实验结果表明,所提方法能够提高少样本类的识别率,从而提高分类器的总体性能. 相似文献
16.
传统的K-最邻近(K Nearest Neighbor,KNN)分类算法在处理不均衡样本数据时,其分类器预测倾向于多数类,少数类分类误差大。针对此问题从数据层的角度改进了传统的KNN算法。先通过K-means聚类算法将少数类样本聚类分组,将每个聚类内的样本作为遗传算法的初始种群;再使用遗传交叉和变异操作获取新样本,并进行有效性验证。最终获取到各类别样本数量基本均衡的训练样本集合。实验结果表明此方法有效改善了KNN算法对少数类分类效果。此法同时适用于其他关注少数类分类精度的不均衡数据集分类问题。 相似文献
17.
18.
利用车辆传动系统试验数据对车辆进行故障诊断和性能评价可以实现车辆故障预警,提高可靠性,从而提高车辆性能,但测试数据有数据量大、不平衡、维度高、噪声多的特征,使得传统数据分析算法会产生次优的分类模型.针对上述问题,提出了一种改进的不平衡数据分类支持向量机算法.该算法赋予各样本不同的权值,用马氏距离改进模糊隶属度的设计以排除变量相关性干扰,同时可以输出正常状态下的故障概率.实验结果表明,该算法能够有效提高故障诊断的准确性,概率输出模型可用于故障预警和性能分析. 相似文献
19.
赵建华 《西南科技大学学报》2014,(1):34-38,48
为了提高半监督分类的有效性,提出一种基于交叉验证思想的半监督分类方法(CV-S3VM)。通过对未标记样本进行伪标记,将伪标记后的样本加入到标记样本集中,参与交叉验证,选取能使SVM分类器误差最小的标记作为最终的标记,实现对未标记样本进行标记。依次挖掘未标记样本的隐含信息,增加标记样本的数目。使用UCI数据集模拟半监督分类实验环境,结果表明CV-S3VM具有较高的分类率,在标记样本较少的情况下效果更为明显。 相似文献