首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 140 毫秒
1.
为解决多分类支持向量机计算量大、训练时间长的问题,构造了支持向量域多分类器(MSVDC).在训练阶段,运用支持向量域描述求得各类样本的最小包围超球,进而将数据空间划分为不同区域;在测试阶段,计算待识别样本与最小包围超球球心的距离,并判断其空间位置;对超球重叠以及超球外区域的样本,定义一种相对类距离,判断样本归属该值较小的类.MSVDC避免了重复利用训练样本,降低了内存占用并提高了计算效率.数值实验结果表明:MSVDC具有好的鲁棒性,分类精度可高达98.89%,分别比一对多和一对一算法高4.51%和1.24%,训练时间分别为一对多和一对一算法的18.06%和55.41%.  相似文献   

2.
经典KNN算法在处理高维数据或样本数繁多的样本集时需要巨大的计算量,这使其在实际应用的过程中存在着一定的局限性;提出一种基于聚类和密度裁剪的改进KNN算法。在训练阶段,首先根据样本密度对整个训练集进行裁剪,然后将裁剪好的训练集进行聚类处理,得到若干个密度比较均匀的类簇并将其转化为超球。在测试阶段,采用两种方法,第一种是找出距离待测样本最近的k个超球,然后将这个k个超球内的训练样本作为新的训练样本集,在这个新的训练样本集上使用经典KNN算法得到待测样本的类别;第二种则是找出距离待测样本最近的1个超球,然后根据该超球的类别得出待测样本的类别。实验采用8个UCI样本集进行测试,实验结果表明,该算法同经典KNN相比具有良好的性能,是一种有效的分类方法。  相似文献   

3.
针对传统滑动窗更新模型时忽略最新数据和待测样本相似性,以及即时学习未考虑相似样本和待测样本的时间间隔问题,采用基于最优定界椭球-极限学习机算法(optimal bounding ellipsoid-extreme learning machine,OBE-ELM)的自适应软测量建模方法将即时学习和滑动窗模型相结合来解决上述问题。首先用初始窗口数据建立ELM模型。当有待测样本到来时,利用SPE和T~2统计量判断修正模型的必要性;需要修正时,采用即时学习在最新窗口中寻找与待测样本相似的样本集并通过OBE动态修正ELM模型;否则用原有ELM模型直接预测输出。该方法的有效性通过合成数据集和连续搅拌反应釜仿真数据得以验证。  相似文献   

4.
为获得具有强推广能力、高效的识别算法 ,提出了基于模糊超椭球聚类的模糊超椭球分类算法 ,并且用于无约束手写体数字的识别。模糊超椭球聚类能充分利用训练样本集的分布信息 ,运用较少的类别个数来表征复杂的样本分布 ,获得良好的识别效果和推广能力。在此基础上 ,模糊超椭球分类算法加入了有监督的控制 ,使算法在聚类过程中可以确定合适的类别数 ,使学习结果能更好地反映训练集的概率分布。然后 ,采用学习矢量量化等算法对其进行进一步有监督训练 ,从而取得更好的训练效果。在国际通用的 NIST字库和实际采集的手写体数字集进行的实验中 ,模糊超椭球分裂算法获得了令人满意的结果 ,而且具有进一步发展的潜力。  相似文献   

5.
传统的神经网络学习算法(如BP算法)需要调整大量的网络参数,例如输入权值以及隐层单元的偏置,而极速学习机只需要设置网络的隐层节点个数,在算法执行过程中不需要调整网络的输入权值,便可以产生唯一的最优解,因此它具有学习速度快且泛化性能好的优点.随着极速学习机的研究发展,核极速学习机的相关理论被提出.核极速学习机是将核函数引入到极速学习机中,可以得到最小二乘解,具有更稳定的泛化性能.本文在核极速学习机的基础上提出了一种基于Bagged聚类核的核极速学习机的分类方法,首先对已有的标记样本和所有的无标记样本采用多次k均值聚类,去构造Bagged聚类核,然后对Bagged聚类核和径向基核进行求和,最终用于核极速学习机的训练中.与传统核极速学习机相比,本文提出的方法可以使用所有的无标记样本,从而尽可能地提高分类的准确率.最后本文通过实验验证了方法的可行性.  相似文献   

6.
传统的KNN算法的时间复杂度与样本规模成正比,大规模或高维数据会降低其分类效率。为此,提出一种改进的KNN快速分类算法。该算法以固定半径长度构造超球为原则,为训练样本集构造多个包围超球。根据各个超球内包含的训练样本集的重心位置与测试样本的位置关系可以快速搜索测试样本的k个最近邻超球,然后以k个最近邻超球内的训练样本集构造新的训练样本集。在新的训练样本集中求测试样本的k个最近邻,从而获得该测试样本的类别。实验表明,改进的KNN快速分类算法的分类准确率得到一定程度的提高、运行效率明显提升。  相似文献   

7.
K最近邻算法(KNN)在分类时,需要计算待分类样本与训练样本集中每个样本之间的相似度.当训练样本过多时,计算代价大,分类效率降低.因此,提出一种基于DBSCAN聚类的改进算法.利用DBSCAN聚类消除训练样本的噪声数据.同时,对于核心样本集中的样本,根据其样本相似度阈值和密度进行样本裁剪,以缩减与待分类样本计算相似度的训练样本个数.实验表明此算法能够在保持基本分类能力不变的情况下,有效地降低分类计算量.  相似文献   

8.
为了降低单超球面一类支持向量机(One Class-SVMs,简称OC-SVMs)分类算法的错分率,提出了一种基于核的多超球面一类支持向量机分类算法.算法利用核空间中样本特征差异突出的特性,首先对样本在核空间进行K-均值聚类,然后使用OC-SVMs对各子类训练建立多超球面分类模型,实现分类判决.实验结果表明,算法有效地提高了分类精度.  相似文献   

9.
实际应用中的大量数据具有不确定属性,而传统的挖掘算法无法直接应用在不确定数据集上.针对不确定数据的分类问题,提出一种基于抽样方法的不确定极限学习机.该算法通过抽样的方法,对不确定数据集中样本的抽样实例进行学习和分类,得到该不确定样本的所属类别的概率,从而实现了传统极限学习机分类算法对不确定数据的分类,并极大降低了不确定对象实例的枚举代价.实验结果表明,该算法在不确定数据的分类问题中具有较好的有效性和高效性.  相似文献   

10.
提出一种基于级联极限学习机的基站空调在线监测系统。首先,基于某基站空调公司提供的监测数据集构建多个原子极限学习机分类器,每一个原子极限学习机对应一种故障类别;再将各原子分类器以级联方式组合用于未知样本的故障诊断;最后将级联极限学习机与单独的多类极限学习机算法、SVM算法、BP神经网络算法、C4. 5决策树算法进行比较测试。结果表明,级联极限学习机算法提高了小类样本的故障识别率,具有更高的故障诊断精度和较短的训练时间,且诊断时间达到在线实时的要求。  相似文献   

11.
提出了超长方体与KNN相结合的分类算法.在训练阶段,该算法为训练集中的每一个类别构造多个超长方体,区域分离每一类训练样本.在测试阶段,该算法首先检查测试样本是否被某一个超长方体包围,如是则其类别被识别出,否则用KNN方法确定其类别.实验采用四个真实数据集进行测试.实验结果表明基于超长方体与KNN的分类算法在四个数据集全部优于两个基于多球覆盖的分类方法,是一种有效的分类方法.  相似文献   

12.
基于稀疏表示分类(SRC,sparse representation for classification)是近年来模式识别领域中备受关注的一个研究热点。当每类训练样本较少时,SRC的识别效果往往不理想。为解决此问题,人们提出了拓展的稀疏表示分类算法。它引入了训练样本的类内变量矩阵,来补充每类训练样本信息。但是,该方法很难获取普遍存在于复杂数据如图像中的非线性信息。为此,提出了特征空间中的拓展稀疏人脸识别算法。该算法将样本集非线性映射到新的特征空间中,计算每个训练样本在表示测试样本时所做的贡献。根据贡献大小,给每个训练样本赋予一定的权重。同时,利用类内变量矩阵,共同表示测试样本。实验表明所提出的算法优于其它经典稀疏表示分类算法。  相似文献   

13.
在直推式支持向量机(transductive support vector machine, TSVM)中,迭代过程中样本标注错误会导致错误传递,影响下一次迭代中样本标注准确度,使得错误不断地被积累,造成最终分类超平面的偏移。在不均衡数据集下,传统支持向量机(support vector machine, SVM)对样本分类的错误率较高,导致TSVM在每次迭代中标注样本准确度不高。针对此,本文提出一种不均衡数据集下的直推式学习算法,该算法依据各类支持向量的密度分布关系动态计算各类的惩罚因子,提高每次迭代中样本标注的准确度,算法在继承渐进赋值和动态调整规则的基础上,减少分类超平面的偏移。最后,在KDD CUP99数据集上的仿真实验结果表明该算法能够提高TSVM在不均衡数据下的分类性能,降低误警率和漏报率。  相似文献   

14.
偏标记学习是近几年提出的新机器学习框架,已有的逻辑回归偏标记算法尚不能解决数据不平衡问题.建立了一种可以解决数据不平衡的逻辑回归模型偏标记学习算法.基本思想是在多元逻辑回归模型中定义新的似然函数以达到处理不平衡数据的目的.算法先根据训练集中各个类别样本所占比例定义了一个新的似然函数,之后通过逼近和求导等数学手段推导得到了能够求解的光滑的逻辑回归偏标记学习模型.在UCI数据集和真实数据集上的仿真实验表明,所提算法在数据存在不平衡问题时提高了样本的平均分类精度.  相似文献   

15.
万宇  齐金平  张儒  闫森 《科学技术与工程》2021,21(28):12080-12087
基于机器学习的煤与瓦斯分类预测方法中,各突出案例的数量不平衡会导致预测准确率降低。为了提升煤与瓦斯突出预测模型的准确率及稳定性,构建了过采样算法和支持向量机(support vector machine, SVM)组合的分类预测模型。首先,通过聚类分析将突出样本分成多个簇,在每个簇中对可能的噪声点按概率去除;然后通过过采样算法合成新样本,以减少样本数量不均衡对模型训练的影响;最后,用支持向量机模型结合粒子群算法对新数据集进行训练调优。实验结果表明:提出的模型在G-mean、曲线下面积(area under curve, AUC)值上均高于传统的分类模型,具有更强的算法鲁棒性,并且随着突出样本数量的减少,其优势更加明显。  相似文献   

16.
一种基于距离比值的支持向量机增量训练算法   总被引:1,自引:0,他引:1       下载免费PDF全文
由于支持向量机具有较好地学习性能和泛化能力,目前已经得到了广泛的应用。如何使支持向量机进行有效的增量学习是目前支持向量机应用中需要解决的问题。深入研究了支持向量分布特点,提出了一种新的支持向量机增量训练淘汰机制——距离比值算法。该算法根据遗忘规则,设定一个合适的参数,按距离比值法中的定义计算各个样本中心距离与其到最优分类面距离的比值,舍弃对后续训练影响不大的样本,即可对训练数据进行有效的淘汰。对标准数据集的实验结果表明,使用该方法进行增量训练在保证分类精度的同时,能有效地提高训练速度。  相似文献   

17.
传统的Boosting算法训练出的分类器常会出现过拟合和向多数类偏移.为此,提出一种基于自适应样本注入和特征置换的Boosting学习算法,通过在训练过程中加入人工合成样本,逐渐平衡训练集,并通过合成的样本对分类器学习进行扰动,使分类器选择更多有效的特征,提高了分类器的泛化能力.最后,在两类和多类图片分类问题上对该算法的有效性进行了考察,实验结果表明,该算法能够在样本数很少,且正负样本数量极不均衡的情况下,有效提高booting算法的泛化能力.  相似文献   

18.
针对同物异谱现象以及分类过程中样本代表性差、人工参数设置等原因导致高光谱遥感影像分类精度差的问题,提出了一种样本集优化的最优代表向量分类法,对感兴趣区中的样本进行密度峰值聚类提纯,并对每类地物提纯后样本的均值向量集进行隶属度聚类择优,获取最优代表向量集作为该类地物的中心向量,最终依据距离准则进行分类.通过对比实验验证,本文算法总体分类精度高于90%,表明最优代表向量分类法能够有效消除样本差异性的影响,提高冰川分类精度.   相似文献   

19.
针对主动学习面向大型数据集人工标记成本过高和半监督自训练算法中存在误标记点影响的问题,提出了一种主动学习与半监督自训练交替迭代训练的联合算法.算法在训练过程中奇数轮次采用主动学习算法,偶数轮次采用自训练算法,通过2种算法的交替迭代训练以弥补彼此不足.自训练算法对无标记样本的预测减轻了主动学习标记样本的负担,同时主动学习标记易变成噪声的样本,减轻了自训练算法训练过程中对样本的标记错误.提出了一种基于密度峰值聚类和隶属度的改进主动学习算法:将初始无标记样本聚类成簇,根据隶属度差值在每个簇内选取部分样本做人工标记,获得可表达样本的整体结构的均衡样本.仿真试验表明:提出的联合算法在性能上要优于2种单一算法.对比常见的主动学习算法,改进后的主动学习算法分类性能得到显著提升,将其应用于联合算法中的效果更具优势.   相似文献   

20.
针对大数据环境下并行支持向量机(support vector machine,SVM)算法存在噪声数据较敏感、训练样本数据冗余等问题,提出基于粒度和信息熵的GIESVM-MR(the SVM algorithm by using granularity and information entropy based on MapReduce)算法.该算法首先提出噪声清除策略(noise cleaning,NC)对每个特征属性的重要程度进行评价,获得样本与类别之间的相关度,以达到识别和删除噪声数据的目的;其次提出基于粒度的数据压缩策略(data compression based on granulation,GDC),通过筛选信息粒的方式保留类边界样本删除非支持向量,得到规模较小的数据集,从而解决了大数据环境下训练样本数据冗余问题;最后结合Bagging的思想和MapReduce计算模型并行化训练SVM,生成最终的分类模型.实验表明,GIESVM-MR算法的分类效果更佳,且在大规模的数据集下算法的执行效率更高.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号