首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 156 毫秒
1.
针对半监督聚类算法中监督信息使用不充分,监督信息中信息含有量低的问题,提出一种结合主动学习的半监督聚类算法.首先结合使用数据的类别标记和成对约束信息,指导Kmeans聚类过程,设计出一种基于Seeds集和成对约束的半监督聚类算法SC-Kmeans;其次将主动学习算法引入到SC-Kmeans中,以尽量小的代价选取信息含有量更高的监督信息,提高SC-Kmeans算法的聚类精度;最后在UCI标准数据集上进行仿真实验.实验结果表明,该算法取得了较好的聚类效果,有效提高了聚类准确率.  相似文献   

2.
基于半监督K-means的K值全局寻优算法   总被引:3,自引:0,他引:3  
提出一种基于半监督K-means的K值全局寻优算法,该算法打破传统方法中采用样本类别作为K值的限定,利用少量标记数据即可指导和规划大量无监督数据.结合数据集自身的分布特点及聚类后各个簇内的监督信息,根据投票方法来指导簇中数据集的类别标记.实验表明,本文所提出的方法可以有效的寻找适合数据集的最佳K值和聚类的中心,提高聚类性能.  相似文献   

3.
待挖掘数据集规模的不断增长,以往的聚类算法由于需要多次扫描原始数据集而不再适用,现阶段,一遍扫描原始数据集即完成聚类的算法成为了首要的研究目标.但是,现有针对大规模数据集的算法容易受到初始化参数以及原始数据集分布的影响,聚类结果质量不高,并且也不稳定.对此,吸收半监督聚类的思想,提出了基于标记集的半监督一遍扫描K均值算法,该算法利用驻留主存的标记集指导聚类过程,使得聚类效率以及聚类结果的质量得到了进一步的提高.在人工生成数据集以及1998KDD数据集上验证了该算法的有效性.  相似文献   

4.
研究了基于偶对约束的半监督模糊聚类,将马氏距离引入到半监督模糊聚类SCAPC(semi-supervised fuzzy clustering algorithm with pairwise constraints)中,获得了一种新的半监督模糊聚类目标函数,通过求解优化问题,提出了一种基于偶对约束和马氏距离的半监督模糊聚类算法M-SCAPC(Modified-SCAPC).针对选择的标准数据集和人工数据集,对提出的算法M-SCAPC进行了实验研究,并与FCM(fuzzy C-means)、AFCC(active fuzzy constrained clustering)和SCAPC算法的聚类性能进行了比较,表明了提出的算法M-SCAPC在收敛速度和正确率方面的有效性.  相似文献   

5.
聚类集成是集成学习中的一个重要分支,其目标是解决无监督聚类分析中聚类算法的选择性、偏差性与数据特殊性等导致聚类结果不理想的问题。文章提出了一种基于数据关联的聚类集成方法(CEBDR),该算法先提取出在聚类成员中体现有关联关系的数据对象来组成新的类,然后对这些类进行二次聚类得到最终的集成结果。文中选用了一些标准数据集,采用CEBDR算法、已有的基聚类和聚类集成算法来进行对比实验,实验结果表明,该算法能够有效地提高聚类质量。  相似文献   

6.
基于局部线性嵌入的半监督仿射传播聚类算法   总被引:1,自引:0,他引:1  
针对运用半监督仿射传播聚类算法处理高维数据时聚类精度低和计算量大的问题,提出一种基于局部线性嵌入的半监督仿射传播聚类算法.该算法首先通过LLE算法将高维输入数据集映射到低维空间得到低维数据集,计算低维数据集的相似度矩阵,再用半监督算法调整相似度矩阵,最后用仿射传播聚类算法对低维数据进行聚类分析.仿真结果表明,本文提出的算法与半监督仿射传播聚类算法相比,在处理高维数据时聚类效果更好,精度更高,迭代次数更少.  相似文献   

7.
半监督学习是近年来机器学习领域中的一个重要研究方向,其监督信息的质量对半监督聚类的结果影响很大,主动学习高质量的监督信息很有必要.提出一种纠错式主动学习成对约束的方法,算法通过寻找聚类算法本身不能发现的成对约束监督信息,将其引入谱聚类算法,利用该监督信息来调整谱聚类中点与点之间的距离矩阵.采用双向寻找的方法,将点与点间距离进行排序,使得学习器即使在接收到没有标记的数据时也能进行主动学习,实现了在较少的约束下可得到较好的聚类结果.同时,该算法降低了计算复杂度,并解决了聚类过程中成对约束的奇异问题.通过在UCI基准数据集以及人工数据集的实验表明,算法的性能好于相关对比算法,并优于采用随机选取监督信息的谱聚类性能.  相似文献   

8.
通过将类间分离度函数引入到模糊C-均值聚类算法中,结合半监督的思想,建立基于信息熵的半监督模糊C-均值聚类模型,并对该模型的求解过程进行推导,提出一种新的算法.为了验证算法的有效性,将该算法在UCI数据集上进行实验,实验结果表明,该算法比仅引入信息熵的模糊C-均值聚类方法聚类性能更好.  相似文献   

9.
为克服k-means算法难以探测出一些局部分布稀疏不均、聚类区域的形状与大小不规整数据点集的聚类分布结构这个缺点,在半监督学习思想的指导下,针对混合属性空间区域中具有同一分布性质的带有类别标记的小样本数据集和无类别标记的大样本数据集,提出了一种基于半监督学习的k平均聚类框架。仿真实验表明:该框架经常能取得比k-means更好的聚类精度,从而说明这个半监督学习框架具有一定的有效性。  相似文献   

10.
一种基于半监督降维的聚类算法   总被引:1,自引:1,他引:0  
半监督聚类通过利用少量有标号样本或成对约束等监督信息来提高聚类性能.在此提出一种新颖的基于半监督降维的聚类算法,首先用半监督降维方法对原始数据进行降维,然后在降维后的空间中进行半监督聚类.由于在降维和聚类两个阶段中都利用了监督信息,从而使得算法的聚类性能得到进一步提升.在UCI标准数据集、yale人脸库以及文本数据集上的实验结果验证了该算法的有效性.  相似文献   

11.
为了有效利用电能质量复合扰动识别中存在的大量难以标注的实测样本,提出了一种基于Jerk流形正则化深度极限学习机(DJRELM)的半监督扰动学习方法. 算法通过堆叠嵌入Jerk流形正则化的极限学习机自编码器(JRELM-AE)实现在复合扰动特征自动提取的同时保持数据内部流形结构. 分类层通过阈值预测极限学习机和Jerk正则化半监督极限学习机的结合将多层网络扩展到多标签半监督分类应用. 实验结果表明:该方法在不同噪声环境下的分类准确率均高于几种基于极限学习机的监督学习、半监督学习算法、传统多层极限学习机和深度卷积神经网络,具有理论意义和实用价值.  相似文献   

12.
提出了一种基于非负稀疏表示(nonnegative sparse representation,NSR)的半监督学习标签传播算法.该算法首先构造一个稀疏概率图(sparse probability graph,SPG),其权重由非负稀疏表示算法计算的非负系数组成,自然地反映了各样本之间的聚类关系,避免了传统半监督学习算法中的邻居选择和参数设置过程;然后通过对未标记样本的标签进行迭代繁殖至收敛而获得所有样本的标签.在人脸识别、物体识别、UCI机器学习和TDT文本数据集上的实验结果表明采用非负稀疏表示的标签传播算法比典型的标签繁殖算法具有更好的分类准确率.  相似文献   

13.
针对主动学习面向大型数据集人工标记成本过高和半监督自训练算法中存在误标记点影响的问题,提出了一种主动学习与半监督自训练交替迭代训练的联合算法.算法在训练过程中奇数轮次采用主动学习算法,偶数轮次采用自训练算法,通过2种算法的交替迭代训练以弥补彼此不足.自训练算法对无标记样本的预测减轻了主动学习标记样本的负担,同时主动学习标记易变成噪声的样本,减轻了自训练算法训练过程中对样本的标记错误.提出了一种基于密度峰值聚类和隶属度的改进主动学习算法:将初始无标记样本聚类成簇,根据隶属度差值在每个簇内选取部分样本做人工标记,获得可表达样本的整体结构的均衡样本.仿真试验表明:提出的联合算法在性能上要优于2种单一算法.对比常见的主动学习算法,改进后的主动学习算法分类性能得到显著提升,将其应用于联合算法中的效果更具优势.   相似文献   

14.
A clustering algorithm for semi-supervised affinity propagation based on layered combination is proposed in this paper in light of existing flaws. To improve accuracy of the algorithm,it introduces the idea of layered combination, divides an affinity propagation clustering( APC) process into several hierarchies evenly,draws samples from data of each hierarchy according to weight,and executes semi-supervised learning through construction of pairwise constraints and use of submanifold label mapping,weighting and combining clustering results of all hierarchies by combined promotion. It is shown by theoretical analysis and experimental result that clustering accuracy and computation complexity of the semi-supervised affinity propagation clustering algorithm based on layered combination( SAP-LC algorithm) have been greatly improved.  相似文献   

15.
目前大多数的轨迹隐私保护方法对轨迹的形状相似性考虑并不充分,并且容易忽略各轨迹点之间的时序相关性,导致生成的干扰轨迹可用性不高。为了解决这些问题,提出了一种基于密度聚类算法(density based spatial clustering of application with noise, DBSCAN)的差分隐私轨迹保护机制。首先,使用DBSCAN算法对数据进行聚类分析,降低数据集中噪声点对聚类效果的影响;其次,根据用户活动轨迹点的时序关系,生成位置转移概率矩阵,利用差分隐私的方法确保生成的干扰轨迹点与真实轨迹点具有相似的位置转移概率;最后综合考虑差分隐私预算和弗朗明歇距离(Fréchet distance)对轨迹相似性的影响,选取位置干扰点。通过仿真实验分析,本文的方案在效率上具有明显的优势,并且生成的干扰轨迹与真实的位置轨迹相比具有较高的形状相似性。  相似文献   

16.
为解决支持向量机在分类识别前需要利用已知训练集进行训练的问题,本文提出了一种基于k均值的对无标识数据进行分类的支持向量机分类算法。首先利用k均值算法将未知数据划分成某个数量的子集,然后对新数据进行支持向量机训练得到决策边界与支持矢量,最后对无标识数据进行分类。模拟结果表明:训练时消耗的CHU时间为1.8280秒,支持向量个数为60时,分类错误率小于2%。  相似文献   

17.
针对动态选择集成算法存在当局部分类器无法对待测样本正确分类时避免错分的问题,提出基于差异聚类的动态SVM选择集成算法。算法首先对训练样本实施聚类,对于每个聚类,算法根据精度及差异度选择合适的分类器进行集成,并根据这些分类器集成结果为每个聚类标定错分样本区,同时额外为之设计一组分类器集合。在测试过程中,根据待测样本所属子聚类及在子聚类中离错分样本区的远近,选择合适的分类器集合为之分类,尽最大可能的减少由上一问题所带来的盲区。在UCI数据集上与Bagging-SVM算法及文献[10]所提算法比较,使用该算法在保证测试速度的同时,能有效提高分类精度。  相似文献   

18.
针对隐私保护数据挖掘中的维数灾难问题,提出一种基于随机投影技术的隐私保护算法.该算法通过定义l投影扰动和Prevent-Ω数据集的概念,构造一种根据投影维数的不同,投影矩阵的稀疏度也相应变化的稀疏投影数据扰动,增加了数据的安全性.实验结果表明,在保护数据隐私的前提下,该算法能有效保证数据挖掘应用中的数据质量.  相似文献   

19.
基于提供的11种聚类外部指标来组合多个聚类,通过单个对象的簇标记变化递增地更新目标函数来求出共识聚类,并利用模拟退火优化算法框架来解决局部最优问题。在UCI和TREC数据库中选取10个数据集进行几种算法的外部指标聚类性能评估实验,从实验数据的归一化角度和排序角度评估不同外部指标的聚类性能,结果表明:MSS3指标从整体性能表现上最适合用于引导聚类集成,可以作为算法默认的共识函数;基于模拟退火优化算法的聚类集成算法在7个数据集上优于其他聚类方法,而DBSCAN、MCLA、Kmearns算法则在其余3个数据集上表现最好。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号