首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 208 毫秒
1.
谱聚类是一种基于图谱划分理论的聚类算法,本质上是将聚类问题转化为图的最优划分问题;量子聚类可以充分挖掘数据样本的内在信息,是一种基于划分的无监督聚类算法.为了充分发挥谱聚类算法和量子聚类算法的优势,本文提出了一种基于流形距离核的谱聚类和量子聚类融合算法(MFD-NJW-QC).首先,计算数据集的流形距离核矩阵,构造相应的拉普拉斯矩阵;其次,根据拉普拉斯矩阵的若干最大特征值对应的特征向量构造新数据集,并使用量子聚类算法对新构造的数据集进行聚类,从而得到原始数据的类标签;最后,基于7个人工数据集和5个UCI数据集验证MFD-NJW-QC算法的聚类性能.结果显示,MFD-NJW-QC算法能够明显提高聚类性能,尤其对于具有流形结构,且类簇大小不平衡、密度分布不均匀的数据集优势更为突出.  相似文献   

2.
聚类是数据挖掘和机器学习领域的重要研究内容,一般会先基于数据样本构建相似图,再基于相似图将样本划分到相应的类中。但是真实的数据经常被损坏,导致学习的相似图不准确,从而直接影响聚类结果。为解决这些问题,提出一种面向鲁棒聚类的自适应图调节和低秩矩阵分解的方法,该方法的核心思想是:将原始数据X分解为纯净数据D和噪声数据S,再基于纯净数据构造拉普拉斯矩阵并进行自适应图调节。随后,给出一个联合学习框架,将数据分离、自适应图正则、噪声消除和低秩矩阵分解集成到一个目标函数中。利用增广拉格朗日乘子法分别更新变量。最后,在理论上证明算法的收敛性并进行实验。实验结果表明所提出的方法与现有一些方法相比有一定优越性。  相似文献   

3.
一种鲁棒的子空间聚类算法   总被引:2,自引:1,他引:1  
针对聚类分析常面临的维数灾难和噪声污染问题,将样本加权思想与子空间聚类算法相结合,提出了一种鲁棒的子空间聚类算法.该算法结合现有子空间聚类方法,为每个类簇计算一个反映各维度聚类贡献程度的权矢量,并利用该权矢量对各维度加权组合,得到各类簇所处的子空间.此外,算法还为每个样本分配一个反映离群程度的尺度参数,以区分正常样本和离群点在聚类过程中的地位,保证算法的鲁棒性.在二维数据集、高维数据集以及基因数据集上的对比实验结果表明,对于具有不同噪声比例的各种维度数据集,该算法均能取得较高的聚类精度,表现出较好的鲁棒性.  相似文献   

4.
待挖掘数据集规模的不断增长,以往的聚类算法由于需要多次扫描原始数据集而不再适用,现阶段,一遍扫描原始数据集即完成聚类的算法成为了首要的研究目标.但是,现有针对大规模数据集的算法容易受到初始化参数以及原始数据集分布的影响,聚类结果质量不高,并且也不稳定.对此,吸收半监督聚类的思想,提出了基于标记集的半监督一遍扫描K均值算法,该算法利用驻留主存的标记集指导聚类过程,使得聚类效率以及聚类结果的质量得到了进一步的提高.在人工生成数据集以及1998KDD数据集上验证了该算法的有效性.  相似文献   

5.
提出一种新颖的多视图子空间聚类算法,不再对包含各种噪声以及冗余信息的原始数据进行特征融合,而是通过对不同视图的低维子空间表示进行融合,得到一个公共的低维子空间表示.将这个子空间表示作为相似度矩阵进行谱聚类,以得到更优的聚类效果.在3个广泛使用的多视图基准数据集上进行了实验,实验结果证明了所提出算法的有效性.  相似文献   

6.
针对不完整多视图聚类存在的缺陷,提出一种融合自表示和投影映射的统一框架.首先,利用自表示和样本存在指示矩阵学习一致相似图,它反映了样本间的公共相似关系;其次,利用投影映射将样本矩阵投影到超球面上,得到公共低维表示;最后,将两者通过谱表示嵌入在一起,解决了因多视图数据缺失引起的不完整多视图聚类问题.该算法在真实数据集上的实验结果优于其他算法,证明了算法的有效性.  相似文献   

7.
为提升轴承故障特征提取精度和运行状态评估准确性,提出一种基于小波包散布熵与Meanshift概率密度估计的诊断方法.首先,采用小波包变换对轴承振动信号数据进行升维,通过计算每个子带的散布熵构建特征矩阵;然后,利用PCA对多维矩阵进行可视化降维,采用Meanshift无参估计得到训练样本的概率密度最大位置作为聚类中心;最后,通过计算测试样本散布熵坐标与各聚类中心的欧式距离判定测试样本类别归属.采用CWRU和QPZZ-II轴承实验台不同故障类型和故障程度样本数据对所提方法进行验证,结果表明,得益于小波包完备的理论模型和信号频带分解稀疏性,结合散布熵指标对数据样本良好的鲁棒性,所构造的特征矩阵具有较好的类内聚集性和较大的类间距离,同时,Meanshift以概率密度最大化为目标自适应迭代聚类中心和隶属度,可以有效实现对不同数据样本的分类识别.  相似文献   

8.
提出了基于惩罚约束问题的群体智能聚类算法PCSI,不必穷尽搜索样本集,利用粒子群算法的优化搜索机制在数据集中有指导地随机搜索聚类中心向量,能够以较小的计算代价确定样本集的类别数.有约束优化过程的罚函数为两部分之和:①目标函数,各样本与其类别中心的均方误差;②自适应惩罚项,即数据集的边界作为粒子群移动的约束条件,对约束违反程度进行惩罚.为降低不平衡数据集的影响,按照数据集的方差和模糊高斯函数,将样本到其类别中心的距离进行模糊映射,归一化到[0,1]区间.粒子群优化方法免去了传统方法的求导计算.聚类IRIS数据集和Reuters-21578文档集以验证算法的有效性,对大规模数据聚类有明显优势.  相似文献   

9.
针对传统κ-均值聚类方法不能处理大规模聚类的问题,提出一种加速κ-均值聚类方法,称为S_κ-均值聚类算法.该方法在传统κ-均值方法基础上,首先随机抽取一定量的样本点作为初始工作集,并在初始工作集上进行聚类,求出相应的类中心.然后对剩余的样本,根据其与已得到的类的相似度进行一次性的划分,从而得到划分后的类别.由于该方法只有较小规模的初始工作集需要进行一般的κ-均值聚类,而剩余的大多数数据不需要进行反复迭代就可以直接得到其聚类结果,从而在很大程度上提高了聚类效率,解决了传统κ-均值聚类方法不能用于处理大规模数据聚类的问题.实验结果表明,与传统κ-均值聚类方法相比,S_κ-均值聚类算法的聚类速度得到了明显提高,能够有效处理大规模数据的聚类问题.  相似文献   

10.
DPC算法是一种能够自动确定类簇数和类簇中心的新型密度聚类算法,但在样本分配策略上存在聚类质量不稳定的缺陷.其改进算法KNN-DPC虽然具有较好的聚类效果,但效率不高而影响实用.针对以上问题,文中提出了一种近邻密度分布优化的DPC算法.该算法在DPC算法搜索和发现样本的初始类簇中心的基础上,基于样本的密度分布采用两种样本类簇分配策略,依次将各样本分配到相应的类簇.理论分析和在经典人工数据集以及UCI真实数据集上的实验结果表明:文中提出的聚类算法能快速确定任意形状数据的类簇中心和有效地进行样本类簇分配;与DPC算法和KNN-DPC算法相比,文中算法在聚类效果与时间性能上有更好的平衡,聚类稳定性高,可适用于大规模数据集的自适应聚类分析.  相似文献   

11.
基于势能的快速凝聚层次聚类算法使用一种全新的相似性度量准则,可以更高效地得到聚类结果。针对该算法无法有效处理含噪声的复杂流形数据的缺陷,提出噪声环境下复杂流形数据的势能层次聚类算法。通过势能递增曲线识别噪声点,在新定义的势能最大、最小2层数据上进行自动聚类,以确定类簇的大体框架,并在此基础上对整个数据集进行层次聚类。人工数据集上的实验表明,新算法可以有效处理噪声环境下复杂流形数据;真实数据集上的实验表明,新算法具有更优的聚类效果。  相似文献   

12.
针对网络入侵检测系统中的一般聚类算法速度较慢和精度较低的问题,提出了一种基于简化群优化的最优路径森林聚类算法(SSO-OFC).首先,将数据集解析为图,将其节点作为样本;然后,将每个样本连接到其给定特征空间中的k-近邻,图的节点由它们的概率密度函数(pdf)值加权得到;最后,通过样本及k-近邻之间的距离计算得到pdf值.提出的算法主要贡献是快速估计最佳k值,并将最优路径森林聚类应用于网络入侵检测.在5个公开的数据集上进行实验.结果表明,SSO-OFC的精度非常稳定,除了KddCup数据集,其他数据集上的精度都在95%以上,相比基于数据聚类的SSO和自组织映射更加稳定有效.  相似文献   

13.
高维数据受冗余数据和噪声数据的影响,聚类效率和准确率低,基于拉普拉斯矩阵的特征值和特征向量的特点,介绍了一种适用于高维数据的新的聚类中心选择算法,算法将拉普拉斯矩阵用于候选聚类中心选择前的数据降维处理,经过对数据进行降维处理,提高了候选聚类中心的准确性,增大了聚类准确率,扩大了聚类数据的种类范围.在10个包含不同数量样本、维度、类别数的数据集上进行了聚类分析,实验结果表明了基于拉普拉斯降维的新聚类中心选择方法的有效性.  相似文献   

14.
谱聚类算法建立在谱图划分理论基础上,与传统的聚类算法相比,它具有能在任意形状的样本空间上聚类且收敛于全局最优解的优点。然而,谱聚类算法涉及如何选取合适的尺度参数σ构造相似度矩阵的问题。并且,在处理大规模数据集时,聚类的过程需要较大的时间和内存开销。研究从构造相似度矩阵入手,以传统NJW算法为基础,提出一种基于K近邻的自适应谱聚类快速算法FA-SC。该算法能自动确定尺度参数σ;同时,对输入数据集分块处理,并用基于K近邻的稀疏相似度矩阵保存样本信息,减少计算的内存开销,提高了运行速度。通过实验,与传统谱聚类算法比较,FA-SC算法在人工数据集和UCI数据集上能够取得更好的聚类效果。  相似文献   

15.
为提高对抗性攻击在大规模图上的攻击效率,提出了基于子图采样的对抗样本生成方法. 该方法通过引入PageRank、余弦相似度及K跳子图等技术,提取与目标节点高度相关的子图,在大规模图上缓解了计算梯度效率较低的问题,在降低被攻击模型准确性的同时提升了攻击的隐蔽性. 实验结果表明: 所提出的对抗性攻击方法与基于梯度攻击的GradArgmax算法相比,在Cora数据集上提升了30.7%的攻击性能,且在Reddit大规模数据上能够计算GradArgmax算法无法计算的攻击扰动.  相似文献   

16.
近年来,聚类作为机器学习、数据挖掘等领域的基本问题受到广泛的关注及研究,然而数据中普遍存在的噪声和异常值严重影响聚类结果.提出一个基于相关熵和流形正则化的聚类框架CRNMF(Correntropy and Manifold Regularization Non-Negative Matrix Factorization).首先,采用基于相关熵的非负矩阵分解(Non-Negative Matrix Factorization,NMF)作为损失函数来抑制非高斯噪声和异常值的影响;其次,充分考虑数据的结构信息,采用流形正则化学习数据的局部结构,并通过l2,1-范数对非负矩阵进行稀疏约束;最后,利用半二次优化技术(Half-Quadratic Optimization Technique,HQ)进行优化,并分析了收敛性和计算复杂度.在五个图像数据集上进行测试,实验结果表明,提出的框架在图像聚类任务中具有较好的有效性和鲁棒性.  相似文献   

17.
图像聚类是当前的研究热点,非负矩阵分解(non-negative matrix factorization, NMF)算法在图像聚类领域得到了广泛应用。但是单一的NMF算法无法应用于所有数据集,并且NMF算法直接在数据的原始空间进行处理,抗噪能力较差。集成聚类可以解决上述问题,集成聚类将若干个基础聚类结果合成一个一致性结果,不仅可以提高聚类的求解质量,还可以增强算法的鲁棒性。因此本文提出一种层次预处理的NMF加权集成聚类算法。该算法将层次划分、集成聚类和二部图的思想引入到NMF算法中。在预处理阶段,利用层次划分得到聚类数目。之后采用局部加权的方法得到协关联矩阵。最后利用基于二部图的一致性函数进行划分得到最终的聚类结果。在5个数据集上进行实验,验证了本文算法相对于传统算法和其他集成算法的有效性。  相似文献   

18.
许多成功的社区发现算法已经被广泛应用于复杂网络社区发现任务中.随着数据复杂性的增加,网络中节点间的关系也呈现多样化的特点,因此提出一种基于信息熵的节点稳定性度量方法,衡量网络中节点在社区划分中的稳定性;并在此基础上提出一种基于节点稳定性的社区发现算法(Node Stability-based Algorithm,NSA).首先得到网络的t种社区划分,计算各节点的标签熵,选择熵小于一定阈值的节点作为网络的稳定节点集S;然后,利用所得到的稳定节点集S从原网络中抽取一个包含S的连通子图Gs,使Gs中节点的不稳定性尽可能低;在连通子图Gs上进行社区发现,得到初始聚类结果,再计算其他未聚类节点与初始类簇的距离,确定其社区归属,得到最终聚类结果 .在四个带标签真实网络数据集和八个不带标签的真实网络数据集上,与LPA,Infomap,Walktrap,BGLL,LPA-S等经典算法的比较实验表明,所提出的NSA算法能够较好地进行社区发现,在NMI和模块度等方面表现良好.  相似文献   

19.
聚类集成的目标是通过集成多个聚类结果来提高聚类算法的稳定性、鲁棒性以及精度.近些年,聚类集成受到了越来越多的关注.现有的集成聚类通常平等地对待所有基聚类,而不考虑它们的重要度.虽然学者们已经在这一方面做出了一些努力,例如使用加权策略来改进共协关系矩阵,但无论是给基聚类加权还是对类重要度评价时都忽略了样本对于其所在类贡献的差异.为此,提出了基于样本对加权共协关系矩阵的聚类集成算法,该算法利用k-means算法产生多个基聚类结果,然后对于其中的每个类再利用k-means算法产生多个小类,并计算去掉样本对所在的小类后类的不确定性变化的程度来评价该样本对的重要度,最后通过层次聚类算法得到聚类结果 .在六个UCI数据集上的实验结果表明,基于样本对加权共协关系矩阵的聚类集成算法的性能优于三种经典的基于共协关系矩阵的聚类集成算法.  相似文献   

20.
基于局部信息的加权孪生支持向量机(WLTSVM)借用类内及类间近邻图分别表示类内样本的紧凑性和类间样本的分散性,克服孪生支持向量机(TWSVM)欠考虑训练样本间相似性的缺陷,并且在一定程度上降低二次规划求解的计算复杂度。然而,WLTSVM仍不能充分刻画类内样本潜在的局部几何结构,并且存在对噪声点敏感的风险。基于以上不足,提出一种鲁棒的加权孪生支持向量机(RWTSVM)。与WLTSVM相比,RWTSVM的优势在于:选用热核函数定义类内近邻图权值矩阵,可以更好地刻画类内样本潜在的局部几何结构及蕴含的鉴别信息;用类间近邻图选取边界点,同时结合类内近邻图使得超平面远离边界点中权重较大的样本,降低算法对噪声点敏感的风险。人造数据集和真实数据集上的测试结果验证算法RWTSVM的有效性。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号