首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 281 毫秒
1.
传统的分类器对不均衡数据集的分类严重倾向于多数类。为了有效地提高不均衡数据集中少数类的分类性能,针对此问题提出了一种基于K-means聚类和遗传算法的少数类样本采样方法。通过K-means算法将少数类样本聚类分组,在每个聚类内使用遗传算法获取新样本并进行有效性验证,最后通过使用KNN和SVM分类器,在仿真实验中证明了方法的有效性。  相似文献   

2.
基于K-means聚类和遗传算法的少数类样本采样方法研究   总被引:1,自引:0,他引:1  
传统的分类器对不均衡数据集的分类严重倾向于多数类.为了有效地提高不均衡数据集中少数类的分类性能,针对此问题提出了一种基于K-means聚类和遗传算法的少数类样本采样方法.通过K-means算法将少数类样本聚类分组,在每个聚类内使用遗传算法获取新样本并进行有效性验证,最后通过使用KNN和SVM分类器,在仿真实验中证明了方法的有效性.  相似文献   

3.
为了提高图像分类精度,降低训练复杂度,提出一种采用无监督学习算法与卷积构造的图像分类模型.首先,从输入无标签图像中随机抽取大小相同的图像块构成数据集,进行预处理.其次,将预处理后的图像块通过两次K-means聚类算法提取字典,并采用离散卷积操作提取最终图像特征.最后,采用Softmax分类器对提取的图像特征进行分类,得出准确率.将该模型与卷积神经网络(CNN),Dropout CNN网络进行比较,结果表明:在对大规模高维图像分类上,文中模型具有分类精确度高、简单、训练参数少、适应度高等优点.  相似文献   

4.
针对无人机平台获取的高分辨率可见光松树图像,提出一种结合深度卷积神经网络和Adaboost算法的病害松树识别方法,解决传统机器学习方法识别病害松树精确度不高问题.首先利用卷积神经网络训练病害松树模型再利用训练模型将地物中的田地、裸土及黑影等复杂信息剔除掉,提取病害松树、健康松树及黑影区域的颜色和纹理特征,依据提取的特征在剔除地物干扰项后的决策层使用Adaboost分类器进行目标识别.实验结果表明,该方法相较传统的K-means聚类、支持向量机、Adaboost算法、BP神经网络、VGG(visual geometry group)算法等在识别精确度方面有显著提高.  相似文献   

5.
改进传统的基于二叉树结构的支持向量机多类分类方法。将无监督聚类引入到算法中,利用无监督聚类剔除大量的非支持向量样本,同时对于无监督聚类在异类样本相近时出现的性能下降问题,引入线性判别分析使得同类样本聚集,异类样本分散,确保聚类精度。线性判别分析和无监督聚类结合能够显著地缩减训练样本。该方法能够在保持分类准确率的情况下有效地提高SVM的分类速度。  相似文献   

6.
文本情感分析就是分析主观文本的情感倾向.针对情感分析中标签样本不足以及不同领域中情感表达存在差异的问题,提出一种基于卷积神经网络的跨领域情感分析方法,利用源领域标签样本完成对目标领域的无监督情感分析.首先,量化词项的情感极性、基于词向量度量词项的领域一致性,并在此基础上选择情感强烈且语义一致的词项作为领域间的共享词;然后,采用卷积神经网络提取文本特征,基于共享词的极性对源领域情感文本进行特征扩展;其次,基于扩展的文本完成情感分类器的训练,并对目标领域的情感文本进行分类;最后,在Amazon数据集上进行实验分析,实验结果表明该方法可以提高跨领域情感分类的准确率.  相似文献   

7.
针对SMOTE算法和随机森林可较好解决不平衡数据集的分类问题但对少数类样本分类效果还有待提高的问题,融合Canopy和K-means两种聚类算法,设计了C-K-SMOTE改进算法。先后利用Canopy算法进行快速近似聚类,再利用K-means算法进行精准聚类,得到精准聚类簇,最后利用SMOTE算法增加少数类样本数量,使数据趋于平衡。选取公开数据集KEEL(knowledge extraction on evolutionary learning)数据库中的不平衡数据集,结合随机森林分类模型进行了实验验证,实验表明C-K-SMOTE算法可有效平衡不平衡数据集。  相似文献   

8.
针对临床路径决策分析聚类算法中聚类效果依赖于样本数据分布且处理数据效率低的问题,提出基于均衡分配方法的模糊K-means算法的临床路径决策方法.该算法利用文字数字化处理与加权计算来建立数据格式统一且关键属性突出的样本特征值矩阵;利用基于均衡分配方法的模糊K-means算法对上述样本进行聚类分析,得到最终的聚类中心与聚类结果,以此辅助医生进行临床路径决策.采用ECLIPSE编程进行仿真,与传统模糊K-means算法和基于减法聚类的FCM算法相比,采用该算法的迭代时间分别降低了26%与70%,迭代次数分别减少了33%和82%,平均目标函数最小值分别减小了32%和28%.实验表明,该算法能够有效降低聚类效果对于样本数据分布的依赖,同时数据聚类效率与质量也有显著的提高.  相似文献   

9.
对不平衡数据进行聚类分析时,K-means聚类方法可能会错误地将分布在较小区域类别中的样本划分到大区域类别中;谱聚类算法,虽然可以有效优化数据结构,并很好地识别不同形状的样本,但却难以处理大规模数据.针对这些问题,提出一种改进地标点采样的不平衡数据聚类算法.该算法首先对不平衡数据进行预聚类以获得初始类标签,然后基于数据密度对数据进行采样.在此基础上,通过对采样数据执行K-means聚类,并将聚类中心作为地标点,对数据进行谱聚类分析.实验结果显示,该方法在处理不平衡数据时,不仅能够有效提高样本的聚类准确率,而且能够保证聚类结果的稳定性和精度.  相似文献   

10.
基于半监督K-means的K值全局寻优算法   总被引:3,自引:0,他引:3  
提出一种基于半监督K-means的K值全局寻优算法,该算法打破传统方法中采用样本类别作为K值的限定,利用少量标记数据即可指导和规划大量无监督数据.结合数据集自身的分布特点及聚类后各个簇内的监督信息,根据投票方法来指导簇中数据集的类别标记.实验表明,本文所提出的方法可以有效的寻找适合数据集的最佳K值和聚类的中心,提高聚类性能.  相似文献   

11.
在计算机视觉领域中,大多数的视频表示方法都是有监督的,需要大量带有标签的训练视频集,但标注大量视频数据会花费极大的人力和物力.为了解决这个问题,提出了一种基于深度神经网络的无监督视频表示方法.该方法利用改进的稠密轨迹(iDT)算法提取的视频块交替地训练深度卷积神经网络和特征聚类,得到可提取视频特征的深度卷积神经网络模型;通过视频的中层语义特征,实现了无监督视频表示.该模型在HMDB 51行为识别数据库和CCV事件检测数据库上分别进行了动作识别和事件检测的实验,获得了62.6%的识别率和43.6%的检测率,证明了本文方法的有效性.  相似文献   

12.
针对面向实际应用场景中数据标签易残缺导致有监督多标签分类方法可用训练数据量减少,未能利用大量标签缺失数据中蕴含的样本特征空间关联知识以最大化判别间隔,限制多标签分类效果等问题,本文提出一种融合样本相似性的弱监督多标签分类方法.该方法利用标签相关性和样本相似性恢复标签以提高数据利用率,并将标签恢复嵌入到训练过程中以便挖掘标签相关性,通过近端加速梯度法进行参数优化,建立弱监督学习场景的多标签分类模型.在真实数据集上的实验结果表明,该方法能够利用样本相似性有效提升模型在标签残缺时的分类能力,实用价值大.   相似文献   

13.
多标签分类问题已广泛应用于文本分类、图像分类、生物基因功能分类、视频语义注释等.相比较于单标签分类,多标签分类更符合真实世界的客观规律.然而,已有的卷积神经网络多标签分类算法没有探究标签之间相关性,为此提出了一种基于标签相关性卷积神经网络多标签分类,即计算标签之间共现相似度方法,同时为了解决卷积神经网络预测精度高,训练时间长的缺点,引入了迁移学习的方法加快了模型的训练时间.实验表明,提出的算法优于传统的多标签分类算法.  相似文献   

14.
多标记学习采用RBF神经网络与K-means聚类算法相结合取得了较好的效果,但由于聚类数事先不能很好地确定,无法给出准确的聚类个数值,会导致聚类质量下降、聚类结果不稳定等,进而影响RBF神经网络多标记算法的稳定性及分类性能。本文从样本几何结构的角度出发,采用一种聚类有效性指标函数,为每个类寻找最优的聚类个数,从而优化问题的求解。理论研究和实验结果表明,改进后的算法在分类的稳定性及分类性能方面都有较好的表现。  相似文献   

15.
为了有效利用电能质量复合扰动识别中存在的大量难以标注的实测样本,提出了一种基于Jerk流形正则化深度极限学习机(DJRELM)的半监督扰动学习方法. 算法通过堆叠嵌入Jerk流形正则化的极限学习机自编码器(JRELM-AE)实现在复合扰动特征自动提取的同时保持数据内部流形结构. 分类层通过阈值预测极限学习机和Jerk正则化半监督极限学习机的结合将多层网络扩展到多标签半监督分类应用. 实验结果表明:该方法在不同噪声环境下的分类准确率均高于几种基于极限学习机的监督学习、半监督学习算法、传统多层极限学习机和深度卷积神经网络,具有理论意义和实用价值.  相似文献   

16.
多阶段聚类—朴素贝叶斯的异常检测   总被引:1,自引:0,他引:1  
针对异常检测手段用来标定数据集中明显的不同于其他数据的对象,提出多阶段聚类旨在解决噪声数据的引入和缺失属性样本的处理,并改变传统的贝叶斯分类的被动学习为主动学习的方式来构造性能优越的分类器。在数据预处理阶段,利用密度聚类滤去噪声点,密度聚类的输出作为下一阶段的K-means聚类的输入,提高了K-means的分类准确率。K-means负责对缺失属性的样本进行处理。在分类阶段,利用adaboost学习算法优化朴素贝叶斯分类器,使其获得较好的分类效果。  相似文献   

17.
提出了多目标监督聚类GA算法,即:根据样本的类标签有监督地将样本聚类,在每个类中根据样本属性的相似性有监督地聚成类簇.如果分属不同类标签的类簇出现相交,则相交类簇再次聚类,直到所有类簇均不相交.适应度矢量函数由类簇数和类内距离2个目标确定,类簇数和类簇中心由目标函数自动确定,从而类簇数和中心就不受主观因素的影响,并且保证了这2个关键要素的优化性质.预测分类时,删去单点类簇,并根据类簇号和离某个类簇中心距离的最近邻法则以及该类簇的类标签进行分类.算法模型采用C#实现,采用3个UCI数据集进行实例分析,实验结果表明,本算法优于著名的Native Bayes、Boost C4.5和KNN算法.  相似文献   

18.
杜娟 《科学技术与工程》2011,11(12):2680-2685
传统的K-最邻近(K Nearest Neighbor,KNN)分类算法在处理不均衡样本数据时,其分类器预测倾向于多数类,少数类分类误差大。针对此问题从数据层的角度改进了传统的KNN算法。先通过K-means聚类算法将少数类样本聚类分组,将每个聚类内的样本作为遗传算法的初始种群;再使用遗传交叉和变异操作获取新样本,并进行有效性验证。最终获取到各类别样本数量基本均衡的训练样本集合。实验结果表明此方法有效改善了KNN算法对少数类分类效果。此法同时适用于其他关注少数类分类精度的不均衡数据集分类问题。  相似文献   

19.
非平衡数据集是指数据集中的某类样本数量远大于其他样本的数量。对于此类数据,类分布的不平衡会直接导致很多分类算法的失效。文中基于K-means聚类,Silhouette指标和M-近邻下采样提出一种新的数据平衡方法(K-S-M)。该方法首先用K-means算法对多数类样本进行多次聚类并选取最优聚类个数,然后采用M-近邻下采样对聚类后的数据进行采样,将采样后的点最终构成平衡数据,并对得到的平衡数据进行癫痫性发作的自动检测。实验结果表明,文中所提方法可以很好地处理非平衡数据,减少数据信息损失,同时可以提高非平衡数据分类的有效性。  相似文献   

20.
目的血迹形态识别是现场勘验的重要内容,血迹痕迹中不但包含了案件相关人员的生物物证信息,还包含运动轨迹、运动速度、出血点高度等关键信息。基于卷积神经网络分析滴状血迹形态照片,为滴状血痕现场分析重建提供重要依据。方法基于卷积神经网络的血迹形态识别方法与传统的人工特征提取识别不同,利用计算机模式识别方法对2400张血滴照片样本进行半监督学习,预测静态滴落血迹痕迹出血点的高度。结果利用模式识别的方法,对400个验证样本分类测试,利用caffe框架得出实验结果显示,正确分类率达到了96.75%。结论基于卷积神经网络分析滴状血迹形态图像的实验研究,大大提高了血迹形态识别准确率,为血迹形态识别提供一种新的技术方法补充。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号