首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 15 毫秒
1.
2.
为提高少量样本情况下分类器的性能,提出一种基于多分类器协同的半监督样本选择方法,利用未标注样本实现样本增强,提高分类器泛化能力.依靠多分类器的互相监督和多分类器标签一致的原理,将已标记样本作为训练集,利用SVM和RF两个分类器协同训练,多分类器的类别标签和确定度值作为约束条件,从未标记样本集中筛选出最有代表性的样本构成增强样本集,以准确率为评价标准,验证本算法对分类器泛化性能的影响.本算法在手写数字数据集(Mnist字符库)和Landsat土壤数据集上测试,实验结果表明相比少量原始训练样本构建的分类器,增强样本构建分类器预测的全部类别准确率都得到提升.两个数据集的总体准确率分别提升5.97%和7.02%,Mnist数据集中数字5这类准确率提升最高(提升11.9%,从79.3%到91.2%),Landsat土壤数据集中土壤3这一类准确率提升最明显(提升15.8%,从73.5%到89.3%),结果证明了该算法显著提高了分类器的泛化性能.同时与经典的KNN、Co-training和Co-forest算法对比,所提出的算法能够最大限度地利用未标记样本信息,具有最好的精度表现,证明了该研究提出算法的优越性.  相似文献   

3.
4.
【目的】机器学习中不同算法适用于具有不同分布特征的数据集。在用整个训练集上训练得到的单个分类器预测新样本类别时,由于缺少对局部区域样本的针对性,可能导致分类器对某一区域数据的预测能力较差而产生错误分类。为了解决这个问题,提出基于k-means+ +的多分类器选择算法。【方法】首先用3种分类综合性能较好的算法———Ada-Boost、SVM、随机森林(RF)在训练集上分别训练得到3个分类器作为候选基分类器,然后利用k-means++算法将训练数据集分为k个簇,用3个候选分类器分别对每个簇进行分类测试,选择对这一簇中数据分类精度最高的分类器作为与它的数据相似数据的分类器。在对新样本进行类别预测时,首先判定样本属于哪个簇,然后用它的分类器进行分类预测。【结果】实验结果表明,新算法在9个UCI数据集上优于单个分类算法。【结论】基于局部区域动态选择最优分类器可以提高模型分类准确性。
  相似文献   

5.
针对训练AdaBoost分类器的计算量随候选特征和训练样本数量的增加而急剧增加问题,提出了AdaBoost分类器的快速训练方法. AdaBoost分类器由多个决策桩构成.由于正负样本特征值分布的随机性,现有方法都在训练样本的特征值中穷举搜索来获得最佳决策桩.首先,注意到优秀特征阈值-误差(T-E)曲线的近似凸性,提出使用二分搜索法确定最佳决策桩.与穷举搜索相比,比较操作时间复杂度由O(N)降低为Olog N AdaBoost分类器的快速训练方法.在公开行人检测数据集Inria Pedestrian dataset和Caltech Pedestrian Detection Benchmark上的实验表明,提出的快速训练方法得到的分类器与普通方法的检测性能相当.  相似文献   

6.
针对原始多分类支持向量数据描述(SVDD)算法及其拓展算法忽略超球体之间的差异,且未能充分利用超球体的输出信息等问题,提出一种利用证据理论的多分类支持向量数据描述(证据SVDD多分类)算法。首先,为每一类样本训练一个超球体,并计算每个超球体的正确率与紧密程度;接着使用上一步得到的正确率与紧密程度计算每个超球体的可靠程度;然后,根据超球体的输出信息与可靠程度计算样本的信度函数,信度函数的生成方式采用三焦元法和基于评价矩阵的方法;最后,根据Dempster组合规则融合上一步得到的信度函数,使用Pignistic法将融合后的信度函数转换为概率做出最终的判决。在两个人工数据集和多个UCI数据集上进行实验,结果表明,证据SVDD多分类算法相较传统算法可以获得更好的分类性能;在多个数据集上的仿真结果表明,证据SVDD多分类算法比传统的SVDD多分类算法有3%的精度提升。  相似文献   

7.
摘要:
针对典型故障样本缺乏而使常规机器学习方法无法直接应用的难题,提出了一个基于支持向量数据描述(SVDD)新异类检测与基于Davies Bouldin指数(DBI)的K均值聚类方法相结合的旋转机械故障诊断框架.首先,针对正常状态样本建立SVDD模型,并利用蚁群算法对SVDD模型参数进行优化;然后,当拒绝样本数目累积到设定的阈值时,利用K均值聚类方法对其进行处理而获得能够进行标记的类别,其中,K均值聚类的类型数目由DBI辅助确定;最后,针对所标记的各类样本,分别建立SVDD模型并进行训练,将SVDD分类器按照二叉树形式构建系统状态的完整诊断模型.同时,利用滚动轴承多故障模式样本进行训练测试,以验证所提出算法的有效性.结果表明,所提出算法的训练速度为常规网格搜索算法的近10倍,DBI能够有效确定聚类的数目,对样本状态的识别率达到100%. 关键词:
蚁群支持向量数据描述; K均值聚类; Davies Bouldin指数; 旋转机械; 故障诊断 中图分类号: TP 183
文献标志码: A  相似文献   

8.
【目的】针对协同训练算法不能直接应用于单视图数据,且在迭代过程中加入的无标记样本隐含有用信息不够的问题,提出基于核均值漂移聚类的改进局部协同训练算法。【方法】该算法先在有标记样本集中利用改进局部协同训练算法训练一个完整视图分类器h1,同时挑选出价值高的特征子集来训练局部视图分类器h2,然后在无标记样本集中采用核均值漂移算法选择聚类过程中指定带宽范围内的样本,交由分类器h2标记类别后再加入分类器h1的训练中,以此来优化分类模型。【结果】在UCI数据集上的3组对比实验证明了该算法的有效性,实验结果表明该算法具有更高的模型评价能力。【结论】改进局部协同训练算法将数据集划分为局部视图和完整视图,解决了单视图数据的视图划分问题。利用核均值漂移算法选出较好表现数据空间结构的无标记样本,降低了无标记样本带来的误差。  相似文献   

9.
融合样本选择与特征选择的AdaBoost支持向量机集成算法   总被引:2,自引:0,他引:2  
为提高AdaBoost分类器集成算法的分类精确度并简化分类系统的复杂度,提出一种融合样本选择与特征选择的AdaBoost支持向量机集成算法(IFSelect-SVME)。该算法在AdaBoost算法的每个循环中利用加权免疫克隆样本选择算法进行样本选择,并用互信息顺序向前特征选择算法进行特征选择,再利用每个循环优化选择得到的特征样本子集训练个体SVM分类器,并对其进行加权集成,生成最终的决策系统。对实验所用9组UCI数据集的仿真结果表明:与支持向量机集成(SVME)算法相比,IFSelect-SVME算法的正确分类率有所提高,且样本数可减少30.8%~80.0%,特征数可减少32.2%~81.5%,简化了集成结构,缩短了测试样本的分类时间,所得到的分类系统具有更好的分类精度。  相似文献   

10.
基于加权超球支持向量机算法的超文本分类研究   总被引:3,自引:0,他引:3  
为提高超文本分类算法的性能,降低算法的复杂度,提出一种适用于超文本分类的加权超球支持向量机算法.该算法综合文档内容信息和超链接信息作为文档特征向量,针对传统超球支持向量机算法在不同类别样本数目不均衡时训练分类错误倾向于样本数目小的类别的问题,利用加权因子补偿了类别差异对算法推广性能造成的不利影响.在基准数据集上的测试结果表明,该算法降低了二次规划的复杂度,提高了分类器的分类性能.  相似文献   

11.
提出了一种基于蒙特卡罗积分的数字影像重建方法,首先根据概率密度函数采样形成点云集合,并将空间采样转换为强度采样,采样速度获得了较大提升;然后利用空域滤波器平滑点云集,避免投影出现孔洞;最后根据不同的视角对样本投影,统计出像平面上每个区域内的投影数目.为降低图像估计方差,提出结合Russian roulette技术的混合采样方法和Metropolis采样方法.相比较于复杂度为O(N3)的确定性投影算法,所提出的算法复杂度降为O(N2).实验结果表明,该方法能以较快的帧速给出大数据集的数字影像重建,且无需多次调整转换函数即可生成类X射线影像.  相似文献   

12.
针对采用大样本离线训练的车辆识别分类器在新场景中性能显著下降的问题,提出了一种具有样本自标注能力的车辆识别迁移学习算法,并采用概率神经网络(probability neural netw ork,PNN)进行分类器训练.首先,提出一种基于多细节先验信息的样本标注策略,融合复杂度、垂直平面和相对速度等先验信息实现新样本的自动标注;然后,充分利用PNN训练速度快以及增加新样本时只需分类器进行局部更新的特点,将其引入到分类器训练模型中,取代传统机器学习算法中的Adaboost分类器.实验结果表明:该算法在新场景下的新样本标注准确率高达99.76%.通过迁移学习,新场景的车辆识别分类器性能较通用分类器在检测率和误检率指标上均有显著提升.  相似文献   

13.
为了解决传统分类算法在不平衡样本集上分类效果不佳的问题,提出一种新的欠采样boosting集成算法(FECBoost).首先,通过改进的模糊熵反映样本集原始分布的不确定性,并用此模糊熵判断多数类样本所在的区域,称为安全区域或边界区域;其次,利用密度峰值聚类算法选取安全区域的代表性样本以减少分类器的训练时间和样本间的重叠,降低样本的不平衡度,实现静态欠采样;最后,训练新的boosting集成分类器,在算法每一次迭代之前,基于模糊熵和模糊支持度对多数类样本再次欠采样,使用于训练的样本集达到平衡.该动态欠采样依赖于分类器的训练过程,充分考虑了样本分布的不确定性和错分可能性.通过在真实样本集上的仿真实验验证了提出方法的有效性.  相似文献   

14.
数据描述只使用目标集训练样本获得关于目标集的描述,支持向量数据描述(SVDD)是一种有效的单值分类数据描述算法,根据分类边界线上的支持向量之间距离的大小。利用距离的相似度来对训练集进行约减,实验结果表明,该算法与传统SVDD相比减少了训练时所需的支持向量数目,因而减少了测试时间,同时分类性能也稍有提高.  相似文献   

15.
对训练样本规模为m的标准支持向量机(Support Vector Machine,SVM)进行训练,时间复杂度为O(m3),空间复杂度为O(m2).文章研究将其转换成等价的最小包含球(Minimum Enclosing Ball,MEB)形式,使用核心集向量机(Core Vector Machine,CVM)高效获得近似最优解.CVM的优点是时间复杂度与训练样本规模m呈线性关系,空间复杂度与m无关.实验证明,CVM可以对大规模数据集进行高效的分类.  相似文献   

16.
极限学习机的快速留一交叉验证算法   总被引:4,自引:0,他引:4  
针对回归和分类问题,提出一种极限学习机(Extreme Learning Machine, ELM)的快速留一交叉验证算法,并从理论和数值仿真两方面说明其有效性.结果表明,该算法避免了以训练样本数量N次的ELM模型的显式训练,其计算复杂度与N仅呈线性趋势增长,即O(N).即使在处理大型数据集建模问题时,该算法仍然可以快速地进行ELM模型的选择和评价.通过人工和实际数据集上的仿真实验,验证了该快速留一交叉验证算法的有效性.  相似文献   

17.
稀疏表示的分类器(Sparse Representation-based Classifier,SRC)利用全部的训练集进行训练来得到一个完备基,这使其时间复杂度增长,同时,稀疏表示算法过分强调稀疏项对于分类的作用而忽略了类别之间的协作稀疏表示对于分类的影响。针对这个问题,本文在徐勇等人提出的TPTSR(Two-Phase Test Sample Sparse Representation)算法的基础上提出了一种改进算法,即改进的两阶段协作稀疏表示分类器(Improved Two-Phase Collaborative Sparse Representation Classifier,ITPCSRC),该算法尝试通过寻找一个具有与测试样本关联性最大而且又满足SRC关于训练样本基本假设的完备基来对测试样本进行协作的稀疏表示。本方法在ORL人脸库、Yale人脸库和AR人脸库上进行实验,并与目前最新的基于稀疏表示改进的分类器算法相比,ITPCSRC算法识别率得到了显著提高。  相似文献   

18.
基因芯片技术的出现改变了生物医学研究的前景,其产生的海量数据是限制其发展的瓶颈问题。论文针对基因芯片数据量大、样本数低和基因维数高的特点,提出了一种对基因芯片数据进行分类的降维近似支持向量机DRPSVM基因芯片数据分类器。DRPSVM采用降维的二次规划算法,使得该算法的时间复杂度和空间复杂度比传统的PSVM算法均有降低。通过在CAMDA2000、colon 1 dataset和colon 2 dataset等基因芯片数据集上的与BP、Nearest、RBF、SVM分类器的分类性能比较,DRPSVM在数据样本少、数据维数急剧升高时,分类性能稳定、存在唯一的最优解、训练时间快,适合基因芯片数据分类的应用环境。  相似文献   

19.
飞机装配所需的物料种类复杂且数量巨大,其准时供给往往存在较大的不确定性.为了有效解决物料供给不确定环境下的飞机移动生产线动态调度问题,将机器学习中的支持向量数据描述技术(SVDD)与传统的调度方法相结合,提出了基于SVDD的动态调度算法.通过软件CPLEX和元启发式算法求解不同物料供给延期情形下的调度模型,并将得到的优化结果作为样本对SVDD分类模型进行离线训练.在实时调度阶段,根据SVDD模型实现作业的提前、延期或准时执行的分类.基于该分类结果,利用局部前瞻搜索算法进一步对提前和延期作业的具体开始执行时间做出决策.数值实验结果证明了所提出的算法在响应速度和求解效果上均能满足实际飞机移动生产线动态调度的需求.  相似文献   

20.
为了更好地控制利用伪标签样本学习的这类半监督分类算法中的噪声,针对以往研究中分布噪声难以量化并被忽视的问题,提出一种基于高斯混合模型和伪验证集的噪声量化和分析的新方法.根据噪声下的泛化误差分析,提出一种可回溯的分类器迭代训练策略,可以有效降低伪标签样本带来的噪声影响.通过将该训练策略与集成学习相结合,提出一种ensemble self-learning(ESL)算法,能够进一步提高分类算法的泛化性能.在6个公开数据集上与同类先进算法进行了试验比较.结果表明,所提出的算法取得了最高的平均准确率,并且在75%的试验数据集上都取得了最好的准确率.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号