首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 31 毫秒
1.
现有基于低秩表示的子空间聚类算法(LRR)无法有效地处理大规模数据,聚类正确率不高,以及分布式低秩子空间聚类算法(DFC-LRR)不能直接处理高维数据.为此,文中提出了一种基于张量和分布式方法的子空间聚类算法.该算法首先将高维数据视为张量,在数据的自表示中引入张量乘法,从而将LRR子空间聚类算法拓展到高维数据;然后采用分布式并行计算得到低秩表示的系数张量,并对系数张量的每个侧面切片稀疏化,得到稀疏相似度矩阵.在公开数据集Extended YaleB、COIL20和UCSD上与DFC-LRR的对比实验结果表明,文中算法能有效地提高聚类正确率,且分布式计算能明显降低算法的运行时间.  相似文献   

2.
大数据时代背景下,随着所获数据数量和维度的不断增加,高维数据的处理成为聚类分析的重点和难点.基于同一类别高维数据通常分布在高维环绕空间的低维子空间这一事实,子空间聚类成为高维数据聚类分析领域的重要方法.稀疏子空间聚类(Sparse Space Clustering,SSC)通过交替方向乘子法(Alternating Direction Method of Multipliers,ADMM)对数据矩阵的稀疏自表达系数进行求解,发现分布于低维子空间并集中的数据的稀疏表示并进行聚类.但是ADMM参数多、收敛速度慢,其效率难以满足对大规模数据库进行聚类分析的要求.针对这一问题提出了基于L_0约束的稀疏子空间聚类方法,该方法使用正交匹配追踪(Orthogonal Matching Pursuit,OMP)算法求解L_0约束的自表达稀疏重建问题,构建数据集中各数据之间的相关性矩阵,最终对相关性矩阵应用谱聚类方法得到聚类结果.根据OMP算法每次迭代之间的耦合关系对其进行优化,进一步降低了计算复杂度,提高了算法效率.在生成数据和Extended Yale B database人脸数据库的实验结果表明,该算法与SSC相比,在显著减少计算时间的基础上,取得了与SSC相当的聚类准确率.  相似文献   

3.
子空间聚类已经广泛应用于多个涉及高维数据聚类应用领域,受到机器学习研究者的广泛关注.子空间聚类方法是一种使用特征选择的聚类分析技术,通过选择重要特征子集实现对高维空间的低维表示,在实际应用中能够取得更好的性能,成为流行的高维数据聚类方法.与硬聚类方法相比,软聚类能够给出复杂数据更有意义的划分.扩展k-均值聚类并提出基于可靠性的正则化加权软k-均值新的子空间聚类方法(Reliability-based regularized weighted soft k-means clustering algorithm,RRWSKM),该方法能够计算每个特征对每个聚类的贡献度,从而找到与不同聚类相关的重要特征子集.另外,该方法能够通过调整模型参数准确地辨识数据模式,具有良好的聚类性能.该方法把维度加权熵和划分熵作为正则化项引入到目标函数,避免过拟合问题同时使更多的特征参与辨识聚类.为了提高算法的鲁棒性,使用可靠性测度获得特征权重初始值,提高算法的可靠性和性能.考虑到该算法是非凸优化问题,使用迭代优化方法得到优化问题的最优解.使用多个实际数据集对本文算法进行仿真验证,结果表明,与其他子空间聚类算法相比,该算法能够有效发现高维数据的低维表示,具有良好的聚类性能,适合高维数据的聚类.  相似文献   

4.
提出了一种基于微簇的两阶段高维数据流聚类算法.首先,对新到达的数据进行降维处理,使用改进的线性判别分析方法获得一个局部投影子空间;然后,在子空间内最大化流入数据近邻微簇之间的距离;最终,将流入数据划分到投影空间的微簇中.基于高维数据流的实验结果显示,本算法的分类性能优于其他的数据流聚类算法,并且具有较低的计算复杂度.  相似文献   

5.
基于加权的软子空间聚类是处理高维数据的一种有效手段,在原有的软子空间聚类算法基础上对目标函数进行改进,从而结出一种新的软子空间聚类算法.相较之原算法,此算法具有更高的抗噪性及聚类效率;通过与典型的软子空间聚类算法比较试验,结果表明可有效提高海量高维数据的聚类处理效率.  相似文献   

6.
现有的优秀的聚类算法大多是处理低维数据的,但是对于高维数据,由于其分布特性与低维情形有很大的差异,这些算法失效.为解决高维分类型数据聚类问题,提出了一种基于粗糙集的高维分类型数据子空间聚类算法,基于粗糙集的上、下近似集的类边界描述,确定了类边界范围,然后采用相容度来调整类边界,聚类的过程采用增长子空间的思想,从低维到高维迭代地搜子空间类簇.最后通过在soybean、zoo数据集上的对比实验,实验结果表明了算法不仅可行,而且精度高.  相似文献   

7.
一种鲁棒的子空间聚类算法   总被引:2,自引:1,他引:1  
针对聚类分析常面临的维数灾难和噪声污染问题,将样本加权思想与子空间聚类算法相结合,提出了一种鲁棒的子空间聚类算法.该算法结合现有子空间聚类方法,为每个类簇计算一个反映各维度聚类贡献程度的权矢量,并利用该权矢量对各维度加权组合,得到各类簇所处的子空间.此外,算法还为每个样本分配一个反映离群程度的尺度参数,以区分正常样本和离群点在聚类过程中的地位,保证算法的鲁棒性.在二维数据集、高维数据集以及基因数据集上的对比实验结果表明,对于具有不同噪声比例的各种维度数据集,该算法均能取得较高的聚类精度,表现出较好的鲁棒性.  相似文献   

8.
子空间聚类是一种将搜索局部化在相关维上进行的聚类算法,它能有效地克服数据因维度过高引起的在全空间上聚类的困难.针对高维分类型数据,本文提出了一种自底向上的子空间层次聚类算法,该算法在全局范围内建立一个最相似线性表用来记录每个簇类与其最相似的簇类的相似度,在聚类过程中,选取最相似的簇类合并,并通过维护此线性表产生最相似的簇类.此算法在基于信息熵的意义上能够较准确地搜索簇类的子空间.通过Zoo和Soybean两个典型的分类型数据实验发现,相对于其它相关聚类算法,该算法在聚类的准确率和稳定性方面表现出较高的优越性.  相似文献   

9.
结合主成分分析法与子空间聚类法对高维数据进行分类处理。通过主成分分析法去除噪音信息,再分别用K-means算法和模糊C-聚类算法进行子空间聚类,最后通过ROC曲线进行敏感性分析,得到简单、准确的数据分类方法。通过聚类结果图可以看出,我们的分类效果是较好的,这也为高维数据处理提供了有效的方法。  相似文献   

10.
针对高维时序数据中局部相关模式的聚类问题,建立了一种基于相关子模式的spCluster模型,讨论了该模型与平均平方残值的关系.并以此模型为基础,提出了适用于时序数据的确定性双聚类算法sp-TSC,该算法首先利用spCluster模型将局部相关的数据对象符号化,然后将字符序列插入到泛化后缀树中,利用后缀树的性质避免了穷举局部相关子模式的各种组合,有效减小了搜索空间,从而可以在数据矩阵尺寸的线性时间内发现全部最大δ-spCluster.理论分析和实验表明,该算法是高效可行的.  相似文献   

11.
聚类是大数据时代对海量数据进行数据挖掘与分析的重要工具.本文基于密度峰值聚类算法提出了针对高维数据的聚类模型,以直接简单的形式实现六维度以上数据的任意形状聚类.该模型实现了自动预处理过程,以局部密度较大且距离其他局部密度较大点较远的点作为聚类中心,最后引入参数调整.实验结果表明,该模型不仅对低维数据聚类实用,在高维数据的聚类效果也非常显著.  相似文献   

12.
子空间聚类能有效的发现各簇与所属于的子空间的联系,同时减少高维数据中因为数据冗余和不相关属性对聚类过程产生的干扰.已有的子空间聚类方法强调各子空间中簇的发现,往往忽略子空间的划分.提出了基于属性最大间隔的子空间聚类,该方法主要思想是对子空间的划分时信息的丢失达到最小,从而子空间聚类的结果的效果比较好.主要工作包括:第一,建立了子空间划分的目标函数,也就是使各划分的子空间相互依赖达到最小,第二,设计了基于属性最大间隔的子空间聚类算法Maximum Margin Subspace Clustering(MMSC)进行子空间聚类集成.最后,采用UCI和NIPS2013比赛等数据来做实验,结果表明,在大多数数据上MMSC算法比其他子空间算法能得到更好的聚类结果.  相似文献   

13.
提出了一种数据流概率密度估计方法,在此基础上,经计算得到整个数据集在低维空间投影的信息熵,基于该信息熵实现了一种新的高维数据流的子空间聚类算法EPStream.实验表明,与传统的算法相比,该算法在聚类精度和时间方面都有所提高.  相似文献   

14.
在现有的稀疏子空间聚类算法基础上提出了一个改进的稀疏子空间聚类算法。首先,利用高维数据可以通过同一子空间的低维数据稀疏地表示这一理论,建立一个稀疏最优化模型,获得稀疏矩阵。然后把稀疏矩阵应用到一个正则化谱聚类算法中,从而有效地把数据聚类到子空间中。最后,该算法应用到一个视频序列中,对每个视频帧里的运动物体进行识别,并与现有的子空间聚类算法相比较。实验结果表明,该算法能够有效地识别运动物体,具有良好的实时性和有效性。  相似文献   

15.
一种自适应局部线性嵌入与谱聚类融合的故障诊断方法   总被引:4,自引:1,他引:3  
针对数据维数高、非线性且从高维观测空间分析数据模式困难的问题,将改进的流形学习算法引入到数据聚类中,提出了一种结合自适应局部线性嵌入和递归调用规范切融合的新方法.采用自适应局部线性嵌入对原始数据进行非线性降维,应用递归调用规范切对低维空间数据进行聚类,通过对3组UCI标准测试数据集的仿真实验表明,新方法能够将高维数据有效地映射到低维本质空间,克服了传统方法对数据集结构的依赖性,从而显著提高了谱聚类算法分类的准确性和稳定性.同时,对于田纳西-伊斯曼过程的数据实验,表明了该方法对故障模式识别的可行性和有效性.  相似文献   

16.
电力负荷曲线聚类在电力大数据研究中有重要的应用。针对传统负荷聚类方法难以有效处理海量化的高维负荷数据,以及存在簇间样本模糊导致算法聚类质量不高、聚类效率低下等问题,提出一种结合多维缩放(multi-dimensional scaling, MDS)和一种新的集成簇间、簇内欧式距离的加权K-means方法(weighting k-means clustering approach by integrating intra-cluster and inter-cluster distances, KICIC)的聚类算法(MDS-KICIC)。该方法首先采用MDS算法对高维负荷数据进行数据降维处理,得到降维后的低维矩阵和归一化的特征值向量作为KICIC算法的输入矩阵和权重向量,KICIC通过在子空间内最大化簇中心与其他簇数据对象的距离来融合簇内和簇间的距离进行聚类,得到最终聚类结果。通过算例表明该方法运算时间短、聚类质量高,进一步提高了负荷曲线的聚类性能。  相似文献   

17.
基于减法聚类的带钢厚度数据驱动建模   总被引:1,自引:0,他引:1  
针对轧钢生产中大批过程数据没有被用于提高厚度质量的现象,提出了一种基于减法聚类的带钢厚度数据驱动在线建模方法.首先通过减法聚类将输入空间划分为一些小的局部空间,在每个局部空间中用最小二乘支持向量机建立子模型,子模型加权输出作为带钢厚度的离线模型;然后当在线数据不断增加时,通过在线减法聚类算法实时调整局部空间,子模型的参数采用最小二乘支持向量机的递推算法进行相应的在线辨识,子模型的预测输出作为模型的最后输出.实验结果表明,该方法具有良好的预测精度和较强的在线学习能力.  相似文献   

18.
提出了一种基于隐空间的低秩稀疏子空间聚类算法,在聚类的过程中可以对高维数据进行降维,同时在低维空间中利用稀疏表示和低秩表示对数据进行聚类,大大降低了算法的时间复杂度.在运动分割和人脸聚类问题上的实验证明了算法的有效性.  相似文献   

19.
研究表明,高维数据的聚类都隐含在低维的子空间内,而这些子空间就是把原始数据投影到某些维度上的交集,于是相应的聚类算法就变成如何寻找合适的子空间内容。在此提出了一种新的划分子空间方法——基于Parzen窗子空间划分方法,并在这基础上提出了新的投影聚类方法PCPW。通过与最新的EPCH算法的实验结果对比表明,两者聚类效果相当,但PCPW算法更简单,易于实现。  相似文献   

20.
基于SS/OSF实现高维稀疏数据对象的聚类   总被引:4,自引:0,他引:4  
为了解决传统聚类方法处理高维稀疏数据对象时聚类结果不理想的问题,提出了SS/OSF聚类方法.该方法基于对象组相似度(SS)和对象组特征向量(OSF),并借助对象组特征向量的可加性实现. 采用本方法得到高维稀疏数据对象的聚类结果后,可以根据聚类结果中各个对象集合的上确界和下确界为新对象进行对象组分类. 实验表明,与传统K-means聚类方法相比,随着数据对象数目的增加,该方法无论是在运行时间上,还是在聚类结果的准确度方面都有明显的改进.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号