首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 609 毫秒
1.
若干评价准则对不平衡数据学习的影响   总被引:3,自引:0,他引:3  
为解决绝大部分传统的以精度准则为优化目标而获得的分类器不适于不平衡数据学习(IDL)的问题,文中通过在支持向量机(SVM)模型上进行"元学习",研究了精度、平衡精度、几何平均、F1得分、信息增益、AUC(ROC曲线下方图面积)以及文中新提出的GAF和GBF等评价准则对IDL的影响.在16个来自UCI的不平衡数据集上进行了仿真实验.对实验结果的统计分析表明:不同准则对分类器性能的影响有显著差异;即便是对于先进的学习方法支持向量机(SVM)而言,若以精度准则最大化选择分类器,那么得到的SVM分类器也容易偏向预测多类;通过在其他准则上优化,能输出纠偏了的SVM分类器,它们的整体性能更好,尤其是在预测少类能力方面;在GAF以及GBF准则上优化所得的SVM分类器具有稳定且良好的性能.  相似文献   

2.
提出一种基于数据关系(Data Relationship,DR)的多分类支持向量机(Support Vector Machine,SVM)学习算法(Multi-Classification SVM Algorithm Based on Data Relationship,DR-SVM).DR-SVM算法根据每类数据的关系(如向量积等)获取子学习嚣的冗余信息,从而优化多分类器组,然后通过经典的SVM算法训练分类器组.算法在简化分类器组的同时可对多类数据分类问题获得满意的泛化能力,在标准数据集上的实验结果表明,与经典的SVM多分类方法相比,DR-SVM具有更好的泛化性能,尤其对单个类别精度要求较高的数据尤其有效.  相似文献   

3.
设计一种基于AP聚类算法和SVM分类器相融合的新的混合分类器, 使用AP聚类算法优化数据集, 得到了高质量、 小样本的SVM分类器训练集. 实验结果表明: 与传统的SVM分类器相比, 混合分类器具有更高的分类精度; 在心脏病预测上, 该分类器的效果较好.  相似文献   

4.
针对支持向量机(SVM)分类器的模型选择问题,提出了一种基于特征空间的类别可分性度量(FCSM)准则,并将该准则用于优化多个高斯函数的线性组合系数.与核矩阵度量(FSM)准则相比,FCSM准则在核函数优化应用中的适用性更广,并且在优化效果上有更好的理论支持.实验结果表明,与交叉验证法、半径间隔误差(RM)界法以及基于FSM准则的优化方法相比,FCSM准则能从更大函数集范围优选出核函数,使SVM分类器获得更好的分类能力.  相似文献   

5.
近年来,建立在统计学习理论基础上的SVM(Support Vector Machine)在小样本学习、高维数及全局最优解等方面具有独特的优势,因而受到广大学者的广泛关注.本文建立了基于稀疏的支持向量机的图像识别系统,并利用ROC(Receiver Operating Charaeteristics)特征曲线进行算法评价.首先建立了1-norm SVM算法,得到稀疏的SVM分类器,然后利用ROC特征曲线评价准则与传统算法进行评价.基于数字和人脸图像的数值实验表明,1-norm支持向量机在降维的同时,保持了较高的识别率,增加了模型的鲁棒性.  相似文献   

6.
支持向量机(SVM)具有优良的学习能力和推广能力,然而其性能依赖于参数的选取.本文对影响模型分类能力的相关参数(C、σ2)进行了研究,提出了一种基于基因表达式编程(Gene Expression Programming,GEP)的支持向量机参数选择算法,即根据参数在分类器中的作用,利用GEP优化参数的两种编码方案分别对C与σ2进行编码,期望改进支持向量机的分类精度和泛化能力.最后实验表明了本文算法的有效性.  相似文献   

7.
针对垃圾信息过滤的问题,提出了一种基于支持向量机(SVM)算法的垃圾信息过滤方法. 利用文本分类和信息检索领域所常用的性能评价指标,建立了垃圾信息过滤的评价体系,针对仿真实验获得的实验数据,利用所建立的垃圾信息过滤评价体系对实验数据评价结果,选取了适合的核函数及其参数,构建了SVM分类器,同时也通过仿真实验和评价体系对SVM分类器和传统贝叶斯分类器进行了测试和评估. 结果表明,基于SVM算法的分类器提高了信息过滤的准确性,同时也验证了SVM算法在垃圾信息过滤中的有效性.   相似文献   

8.
支持向量机( SVM: Support Vector Machine) 是定义在特征空间上的间隔最大的线性分类器,参数的选择 决定了其学习性能和泛化能力。针对此参数选择问题,采用改进的涡流搜索算法对支持向量机参数进行选择, 寻找最优适应度函数。仿真实验表明,改进的涡流搜索算法是一种有效的SVM 参数选择方法,有利于跳出局 部最小值,其优化性能不低于涡流搜索算法。  相似文献   

9.
针对靶基因样本数据不平衡导致阳性样本预测准确率较低的问题,提出基于SVM的靶基因预测算法,即偏置判别SVM。算法选取高质量的数据集和最优特征集作为输入,在经验特征空间中以偏置判别分析准则为核优化目标函数,使用核保角变换的方法逐步优化核矩阵,用最优核矩阵构造偏置判别SVM,以解决靶基因数据不平衡对预测造成的影响。对比实验分析表明,提出的偏置判别SVM算法具有更高的特异度、敏感度和预测精度。同时,偏置判别SVM具有更强的泛化能力,鲁棒性更好。  相似文献   

10.
一种面向稀疏表示的最大间隔字典学习算法   总被引:1,自引:0,他引:1  
近年来,基于稀疏表示的分类技术(SRC)在图像分类和目标识别中取得了巨大的成功。在该框架中,过完备基的学习和多类分类器(通常为支持向量机SVM)的训练是最关键的两个步骤。但在目前的许多方法中,这两个模块的构建过程都是相互独立的。该文针对以上问题,提出了一种用于稀疏表示的最大间隔字典学习算法,将两类SVM分类器的损失函数项的平方及分类间隔作为正则项与稀疏字典的学习过程进行了整合,并提出相应的坐标轮换优化算法对目标函数进行优化,实现了字典和分类器的同步学习。所提出的框架能够增强多类分类器中两类分类器的推广性能,并减少多类分类器的误差界。为了对所提出算法的性能进行评价,在2个常用标准库上进行了分类实验。结果表明,所提出的算法的与SRC相比识别率提升均超过3%。  相似文献   

11.
为提高少量样本情况下分类器的性能,提出一种基于多分类器协同的半监督样本选择方法,利用未标注样本实现样本增强,提高分类器泛化能力.依靠多分类器的互相监督和多分类器标签一致的原理,将已标记样本作为训练集,利用SVM和RF两个分类器协同训练,多分类器的类别标签和确定度值作为约束条件,从未标记样本集中筛选出最有代表性的样本构成增强样本集,以准确率为评价标准,验证本算法对分类器泛化性能的影响.本算法在手写数字数据集(Mnist字符库)和Landsat土壤数据集上测试,实验结果表明相比少量原始训练样本构建的分类器,增强样本构建分类器预测的全部类别准确率都得到提升.两个数据集的总体准确率分别提升5.97%和7.02%,Mnist数据集中数字5这类准确率提升最高(提升11.9%,从79.3%到91.2%),Landsat土壤数据集中土壤3这一类准确率提升最明显(提升15.8%,从73.5%到89.3%),结果证明了该算法显著提高了分类器的泛化性能.同时与经典的KNN、Co-training和Co-forest算法对比,所提出的算法能够最大限度地利用未标记样本信息,具有最好的精度表现,证明了该研究提出算法的优越性.  相似文献   

12.
当数据集包含对抗性扰动样本时,其分类结构缺乏稳定性,传统的扰动评估方法效率低且准确率不高.针对该问题,提出一种高效准确的扰动评估方法.首先,根据样本与分类器间的物理属性,定义样本的对抗性扰动,利用线性迭代方法评估计算二类分类器的鲁棒性;然后,为了适应更加一般的情况,将该方法扩展到更加普遍的多类非线性分类器,即超平面包围的区域变为不规则多面体;最后,标记扰动样本对分类器进行优化调整,并对当前估计进行更新,以进一步提高分类器性能.不同数据集和分类器的实验结果表明:与FGSM方法、 L-BFGS方法和未标记方法相比,提出的方法具有更稳定高效的扰动评估性能,且可以构建鲁棒性更高的分类器.  相似文献   

13.
 为克服单一分类器在遥感影像分类精度和效率方面的限制,有必要构建多分类器系统,集不同分类器的优点,获得比单一分类器更高的精度。针对遥感影像的特点和分类的需求,在遥感影像多分类器集成系统需求分析和系统设计的基础上,运用IDL语言在ENVI遥感影像处理平台下实现系统开发。遥感影像多分类器集成系统的主要功能包括遥感影像文件处理、特征选择与提取、分类预处理、分类、多种模式的多分类器集成(固定组合模式、用户自定义模式、向导模式和推荐模式)等。通过分类实例对系统应用进行介绍,表明本系统能够有效地提高遥感影像分类精度。  相似文献   

14.
【目的】随着遥感技术迅猛发展,在影像解译过程中提取的信息越来越繁杂多样。为提高地物分类准确率,常加入更多的特征信息,而由此往往造成一定的信息冗余,导致分类效率甚至准确率降低。笔者利用随机森林(RF)和支持向量机(SVM)分类器,探索在遥感分类过程中保证分类精度的同时又能降低特征维度的方法。【方法】以吉林省安图县福兴林场部分区域为研究对象,利用2015年Landsat-8影像为数据源,提取光谱信息(红、绿、蓝、近红外和短波红外波段)、植被指数(NDVI、增强型植被指数、比值植被指数和裸土植被指数)、纹理(同质性、均值、二阶矩、方差、差异性、对比度、熵和相关性)和地形信息(坡度和坡向)共19个指标作为分类特征变量。以RF分类器估测的特征重要性进行特征选择为对照,分别以单个特征在RF和SVM两分类器中的分类准确率为依据进行特征选择,并对选取的特征进行主成分分析,与未做主成分分析的进行区分,再分别用RF和SVM分类器进行分类,评价分类精度,确定最优特征和分类器组合。【结果】①基于SVM单个特征分类准确率选取特征,对选取的特征进行主成分分析,再用RF进行分类,该方法与其他方法相比分类性能最好,当特征维度为5时,总体精度为0.86,Kappa系数为0.83; 与输入全部特征进行分类相比,不仅提高了分类精度,而且降低了特征维度,使分类效率得以提升。基于RF特征重要性选取特征的RF分类取得了较高的分类准确率,但特征维数小于7时,分类准确率波动较大; 在特征维数为4时分类准确率增至最大值(0.88),随后骤降为0.83,之后基本保持在此水平。而基于单个特征分类准确率选取特征,分类准确率变化较为平缓,如上所提最优分类性能方法的分类准确率波动范围基本在0.02。②基于单个特征在RF和SVM分类器中的分类准确率进行特征选择,在随后的分类过程中,SVM分类器分类精度总体高于RF。基于RF单个特征分类准确率选取特征的SVM分类,及基于SVM单个特征分类准确率选取特征并对选取特征进行主成分分析的RF分类,较仅利用SVM或RF单个分类器选取特征并分类的分类准确率更高。【结论】①基于单个特征分类准确率的特征选择方法,可在保证分类精度的同时降低特征维度,且在较低维度时,基于该方法选取特征的分类精度较基于特征重要性选取特征的分类精度更稳定。②基于单个特征分类准确率进行特征选择,不同分类器选取的特征有所差异,分类准确率也不同,利用多个分类器较单个分类器选取特征并分类的性能更好。③在中低维度时,RF分类器的分类准确率可能与特征输入顺序有关,对输入特征进行主成分分析有利于提高分类器的分类精度及稳定性。  相似文献   

15.
针对传统检测模型仅通过单一方法进行窃电检测具有局限性且用电数据中存在类不平衡的问题,从集成学习的角度出发,本文提出一种基于熵权法融合异质分类器的窃电检测模型。首先,通过少数类样本合成过采样技术(synthetic minority oversampling technique,SMOTE)处理用电数据不平衡的问题,其次综合考虑个体分类器之间的多样性以及各自的检测性能和训练机理进行基分类器的优选,最后,引入信息熵的概念,基于各个基分类器分类结果的分散程度,计算其权重占比,并以该权重占比集成各基分类器的输出。实验结果表明,对比传统的窃电检测模型,本文所提模型在多项评价指标下表现较好,具有良好的检测性能。  相似文献   

16.
为了提高贵妃芒果检测与分级的准确率和效率,首先用标定好的工业相机对芒果进行拍照,然后使用HALCON对芒果图像进行灰度化和图像分割预处理,接着提取芒果面积、果形指数、成熟度、缺陷面积和缺陷个数5个特征参数并归一化,把它们分别作为GMM、MLP、SVM和KNN分类器的输入向量,并以芒果的4个等级作为分类器的输出向量,最后以每级120个训练样本,60个测试样本分别对4种分类器进行训练和测试。结果表明4种分类器的平均准确率依次为92.5%、93.75%、98.75%和98%,准确率较高,有一定的实际应用价值。  相似文献   

17.
Owing to the radical changing of Chinese economy, it is essential to build an effective financial distress prediction model. In this paper, we present a genetic algorithm (GA) approach for optimizing parameters of support vector machine (SVM). We validate the proposed model on datasets of Chinese high-tech manufacturing industry. Experimental results reveal that the proposed GA-SVM model can compare to and even outperform other exiting classifiers. Compared to grid-search algorithm, the proposed GA-based takes less time to optimize SVM parameter without degrading the prediction accuracy of SVM.  相似文献   

18.
单桂军 《科学技术与工程》2013,13(22):6605-6609,6624
为了有效识别声纳信号,提出一种基于连续数据量化的声纳传感器数据识别方法。首先用声学传感器采集数据;其次运用数据离散化方法,有效地将采集到的数据进行连续数据离散化;最后,通过数据挖掘技术(C4.5/C5.0决策树、SVM和Naive-Bayes分类器)对离散后的声纳信号数据进行分类识别。实验首先在UCI数据集上进行Naive-Bayes分类预测来评价提出离散化方法的性能,得到了较好的效果。其后,通过声学传感器收集到的Sonar数据集进行实验。结果表明,新的离散化方法提高了四个分类器的识别精度,表明该声纳传感器数据识别技术是非常有效的。  相似文献   

19.
为了解决传统方法不能按照训练样本量设计最优网络模型,集成效率低的弊端,通过机器学习方法研究数据库小数据集并行集成方法。机器学习选用朴素贝叶斯算法,依据条件独立性假设,通过计算目标先验概率,采用贝叶斯定理求出其后验概率,对后验概率进行比较,完成决策分类,对基分类器进行训练,把不同朴素贝叶斯基分类器当成集成分类器,在原始数据库上对基分类器进行训练,依据分类结果对数据库中小数据集样本分布进行调整,将其当成新数据集对基分类器进行训练,按照基分类器的表现,通过加权将其组合在一起,产生强分类器,实现对数据库小数据集的集成处理。通过MapReduce并行处理完成并行数据集成,输出并行集成结果。通过仿真实验与实例分析验证所提方法的有效性,结果表明:所提方法在训练样本规模相同的情况下有最高的分类精度和最小的波动,在不同集成规模下的分类精度一直最高,波动最小;所提方法可达到数据的最优集成,数据失效比降低,合成比提高。可见所提方法集成精度高,计算稳定性强,集成效果好,效率优。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号