首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 218 毫秒
1.
提出了一种拓展的半监督模糊聚类模型,给出求解这个模型的迭代公式.这种半监督聚类能够合理、有效地利用部分已标识样本的类别信息对未标识样本产生影响,从而提高半聚类算法的聚类效果.其隶属度和聚类中心的迭代公式具有和FCM算法一样简洁的表示.在黄瓜数据集上的聚类分析表明,新提出的半监督聚类优于未改进的两种半监督算法、FCM算法和线性判别方法.  相似文献   

2.
为了提高对未知样本的使用率,充分发挥出半监督聚类算法的优势,ISFCA算法将约束项引入到竞争聚类算法(CA算法)的目标函数中。但在ISFCA算法的隶属度函数中,存在迭代的非必要信息,增加了算法的复杂度。改进了ISFCA算法的隶属度函数,提取出迭代的必要项uCA″rs和非必要项uCA′rs,从而简化隶属度迭代计算过程,使样本的聚类更加合理。实验结果表明,优化后的ISFCA算法对阀门的故障诊断是行之有效的。  相似文献   

3.
一种基于网格划分的模糊聚类算法   总被引:1,自引:0,他引:1  
提出了一种改进的模糊聚类算法GBFC(Grid—Based Fuzzy Clustering).在定义隶属度函数前先做网格划分,形成数据簇的基本形状,并提供真实的参数信息参与此后的隶属度函数定义.隶属度函数综合考虑了影响簇形状的因素,具有合理直观的几何意义且形式简洁.算法通过网格划分加速聚类过程,通过模糊隶属度函数容忍噪声数据,克服了传统模糊聚类算法时间耗费量大的缺点.实验表明该算法具有良好的聚类性能.  相似文献   

4.
【目的】为了在迭代自训练之前探索数据集分布情况,挑选出所含信息量较大且置信度较高的无标记样本加入训练集训练,让训练出的初始分类器有较高的准确性,提高自训练方法的泛化性。【方法】以聚类假设为基础,先对无标记样本集进行密度峰值聚类,在人工地选出聚类中心后,将新的聚类中心作为模糊聚类的初始聚类中心进行模糊聚类,从而筛选出有用的无标记样本。【结果】通过使用密度峰值优化模糊聚类算法,筛选出所含信息量大且置信度高的样本加入了训练集,训练出泛化性更强、分类精度更高的分类器。【结论】实验结果表明,改进后的自训练方法能快速发现样本集原始空间结构,筛选出有用无标记样本加入训练集,与结合其他聚类算法的自训练方法相比分类精度有所提高。  相似文献   

5.
基于半监督K-means的K值全局寻优算法   总被引:3,自引:0,他引:3  
提出一种基于半监督K-means的K值全局寻优算法,该算法打破传统方法中采用样本类别作为K值的限定,利用少量标记数据即可指导和规划大量无监督数据.结合数据集自身的分布特点及聚类后各个簇内的监督信息,根据投票方法来指导簇中数据集的类别标记.实验表明,本文所提出的方法可以有效的寻找适合数据集的最佳K值和聚类的中心,提高聚类性能.  相似文献   

6.
针对原始K-means算法的一系列问题,提出一种基于半监督的K-means聚类改进算法,能够自动进行聚类,找出最优K值,并且最大限度地找出孤立点.首先根据样本集自身的特点,按照"类内尽可能相似"原则一步一步形成数据集,然后对数据集进行"去噪"与合并相似簇,最后,利用少量的标记信息指导和修正聚类结果.在UCI的多个数据集...  相似文献   

7.
针对半监督聚类算法中监督信息使用不充分,监督信息中信息含有量低的问题,提出一种结合主动学习的半监督聚类算法.首先结合使用数据的类别标记和成对约束信息,指导Kmeans聚类过程,设计出一种基于Seeds集和成对约束的半监督聚类算法SC-Kmeans;其次将主动学习算法引入到SC-Kmeans中,以尽量小的代价选取信息含有量更高的监督信息,提高SC-Kmeans算法的聚类精度;最后在UCI标准数据集上进行仿真实验.实验结果表明,该算法取得了较好的聚类效果,有效提高了聚类准确率.  相似文献   

8.
针对模糊C均值聚类(FCM)算法聚类原型最适合于球状类型簇的特点,提出了基于类间分离度和类内紧缩度加权的冗余聚类中心的FCM算法,即先将大簇或者延伸形状的簇(非凸)采用加权FCM算法分割成多个小类(冗余类),从而规避FCM算法对初始聚类中心敏感的弱点.由于隶属度划分矩阵的元素是每个样本隶属于各冗余类的隶属度值,因此将其作为各冗余类的类特征,通过对应分析得到冗余类的新特征,再次采用加权FCM算法进行冗余类合并,最后达到分类效果.以代表曲线分割和曲面分割分类问题的3个典型数据集为算例,结果表明该方法能够识别不规则的簇,解决了FCM算法对初始聚类中心敏感的缺陷.  相似文献   

9.
半监督学习在入侵检测系统中的应用   总被引:1,自引:0,他引:1  
提出了一种基于半监督模糊聚类的异常入侵检测方法,半监督学习算法的训练样本包括已标记数据和未标记数据,在训练系统模型时使用少量已标记样本和大量未标记样本作为种子初始化入侵检测系统的分类器,在少量已标记数据的约束下利用模糊C均值方法生成聚类,无需提供大量标记数据,不易陷入局部最优.实验表明,与FCM算法相比具有较高的性能.  相似文献   

10.
DPC算法是一种能够自动确定类簇数和类簇中心的新型密度聚类算法,但在样本分配策略上存在聚类质量不稳定的缺陷.其改进算法KNN-DPC虽然具有较好的聚类效果,但效率不高而影响实用.针对以上问题,文中提出了一种近邻密度分布优化的DPC算法.该算法在DPC算法搜索和发现样本的初始类簇中心的基础上,基于样本的密度分布采用两种样本类簇分配策略,依次将各样本分配到相应的类簇.理论分析和在经典人工数据集以及UCI真实数据集上的实验结果表明:文中提出的聚类算法能快速确定任意形状数据的类簇中心和有效地进行样本类簇分配;与DPC算法和KNN-DPC算法相比,文中算法在聚类效果与时间性能上有更好的平衡,聚类稳定性高,可适用于大规模数据集的自适应聚类分析.  相似文献   

11.
一种基于KNN的半监督分类改进算法   总被引:1,自引:0,他引:1  
本文提出一种新的基于KNN分类的半监督学习self-training改进算法,并以多个UCI数据集为实验,对基于KNN的半监督分类模型算法进行改进,充分利用已知类别标签数据的正确知识进行自训练,以得到最终分类结果.实验结果表明,该方法能显著提高分类准确率.  相似文献   

12.
为提高分类准确率, 解决城市区域社会功能标签分类难的问题, 提出了一种基于不确定抽样选择策略的半监督城市土地功能分类方法。该算法从轨迹数据中提取城市区域的特征向量, 只需对少量区域进行标签, 根据不确定抽样的主动学习选择策略, 从未标注训练样本中选取具有较多信息的数据, 利用半监督学习算法进行标注, 得到新的标注训练样本添加到训练集, 反复迭代后得到分类结果。实验结果表明, 该方法对不同社会功能的城市区域分类准确率可达90. 2%, 与传统方法相比分类准确率高, 减少了大量标注工作, 在少数标签数据上仍有较好的分类效果。  相似文献   

13.
油气管道在储运过程中,沿线区域地物变化对其安全具有较大影响,特别是道路的修建、沟壑的挖掘、滑坡等。由于油气管道分布范围广、周边环境复杂,传统的人工巡检方式存在一定的局限性,因此研究了基于卫星遥感的油气管道沿线地物变化检测。在综合考虑空间信息和算法自动化程度的基础上提出一种改进的基于多特征融合和主动学习的油气管道沿线地物变化检测算法。首先利用基于自适应阈值算法选择初始训练样本,然后利用梯度提升树、k近邻和极限随机树集成结构进行未标记样本的类别判定,并基于边缘采样的主动学习算法进行未标注样本增选。在样本增选过程中为了减少噪声对训练样本的影响并且减少冗余信息,通过两方面对增选样本进行优化,首先通过分割对象约束分类器集成变化检测结果,提高增选样本的准确性,然后利用边缘采样方法选择信息量较大的未标记样本进行标注。通过两景融合后的资源三号(ZY-3)影像进行实验,结果表明该算法可以有效检测地物变化情况,并且在提高变化检测结果精度的同时,可以有效减少训练样本的标注成本。  相似文献   

14.
图像检索中基于记忆与半监督的主动相关反馈算法   总被引:3,自引:0,他引:3  
为快速提高相关反馈算法的效率,提出一种记忆与半监督相结合的主动相关反馈算法.在检索初期,利用记忆信息获得较多的正训练样本,利用用户已标记样本与数据库内未标记样本有效地解决训练样本不平衡问题,获得准确的初始SVM分类器;在检索后期,利用主动学习算法寻找数据库内对优化学习过程中最有用的样本请求用户标记,减少用户标记的样本量,加快收敛速度.对5000幅Corel图像数据库的实验表明,与传统相关反馈算法相比,新算法能够显著提高学习器的效率和性能,并快速收敛于用户的查询概念.  相似文献   

15.
针对自训练半监督支持向量机算法中的低效问题,采用加权球结构支持向量机代替传统支持向量机,提出自训练半监督加权球结构支持向量机。传统支持向量机需要求解二次凸规划问题,在处理大规模数据时会消耗大量存储空间和计算时间,特别是在多分类问题上更加困难。利用球结构支持向量机进行多类别分类,大大缩短了训练时间,降低了算法复杂度。球结构支持向量机在不同类别样本数目不均衡时训练分类错误倾向于样本数目较小的类别,通过权值的引入,降低了球结构支持向量机对样本不均衡的敏感性,补偿了类别差异对算法推广性能造成的不利影响。在人工数据集和UCI(university of california irvine)数据集上的实验结果表明,该方法对有标记样本的鲁棒性较好,不仅能够提高效率,且分类精度也有显著提高。  相似文献   

16.
为了有效利用电能质量复合扰动识别中存在的大量难以标注的实测样本,提出了一种基于Jerk流形正则化深度极限学习机(DJRELM)的半监督扰动学习方法. 算法通过堆叠嵌入Jerk流形正则化的极限学习机自编码器(JRELM-AE)实现在复合扰动特征自动提取的同时保持数据内部流形结构. 分类层通过阈值预测极限学习机和Jerk正则化半监督极限学习机的结合将多层网络扩展到多标签半监督分类应用. 实验结果表明:该方法在不同噪声环境下的分类准确率均高于几种基于极限学习机的监督学习、半监督学习算法、传统多层极限学习机和深度卷积神经网络,具有理论意义和实用价值.  相似文献   

17.
为了克服由错误标记样本所引发的问题,提出半监督分类器模型。从标记数据和未标记数据中学习得到决策准则,并在马尔科夫随机场中,运用一个新的基于鲁棒误差函数的能量函数,分别设计基于迭代条件模型和马尔科夫链蒙特卡罗的两种算法来推断标记样本和未标记样本的类别。实验结果表明这两种方法对于现实世界的数据集来说是高效的,并具有很好的鲁棒性。  相似文献   

18.
为提高少量样本情况下分类器的性能,提出一种基于多分类器协同的半监督样本选择方法,利用未标注样本实现样本增强,提高分类器泛化能力.依靠多分类器的互相监督和多分类器标签一致的原理,将已标记样本作为训练集,利用SVM和RF两个分类器协同训练,多分类器的类别标签和确定度值作为约束条件,从未标记样本集中筛选出最有代表性的样本构成增强样本集,以准确率为评价标准,验证本算法对分类器泛化性能的影响.本算法在手写数字数据集(Mnist字符库)和Landsat土壤数据集上测试,实验结果表明相比少量原始训练样本构建的分类器,增强样本构建分类器预测的全部类别准确率都得到提升.两个数据集的总体准确率分别提升5.97%和7.02%,Mnist数据集中数字5这类准确率提升最高(提升11.9%,从79.3%到91.2%),Landsat土壤数据集中土壤3这一类准确率提升最明显(提升15.8%,从73.5%到89.3%),结果证明了该算法显著提高了分类器的泛化性能.同时与经典的KNN、Co-training和Co-forest算法对比,所提出的算法能够最大限度地利用未标记样本信息,具有最好的精度表现,证明了该研究提出算法的优越性.  相似文献   

19.
图像检索中基于标记与未标记样本的主动学习算法   总被引:3,自引:0,他引:3  
为解决监督学习过程中训练样本集过小问题,提出一种未标记样本辅助学习与主动学习相结合的学习方法.基于用户已标记样本与数据库内未标记样本,利用EM算法得到初始朴素贝叶斯分类器与初始假设;主动学习算法寻找数据库内对于优化学习过程最有用的样本请求用户标记;算法根据用户反馈,迭代更新已有查询概念,直至用户满意为止.实验表明,本文算法能够显著提高学习器的效率和性能,并可快速收敛于用户定义的查询概念.  相似文献   

20.
提出了一种基于非负稀疏表示(nonnegative sparse representation,NSR)的半监督学习标签传播算法.该算法首先构造一个稀疏概率图(sparse probability graph,SPG),其权重由非负稀疏表示算法计算的非负系数组成,自然地反映了各样本之间的聚类关系,避免了传统半监督学习算法中的邻居选择和参数设置过程;然后通过对未标记样本的标签进行迭代繁殖至收敛而获得所有样本的标签.在人脸识别、物体识别、UCI机器学习和TDT文本数据集上的实验结果表明采用非负稀疏表示的标签传播算法比典型的标签繁殖算法具有更好的分类准确率.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号