首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到18条相似文献,搜索用时 250 毫秒
1.
现有基于低秩表示的子空间聚类算法(LRR)无法有效地处理大规模数据,聚类正确率不高,以及分布式低秩子空间聚类算法(DFC-LRR)不能直接处理高维数据.为此,文中提出了一种基于张量和分布式方法的子空间聚类算法.该算法首先将高维数据视为张量,在数据的自表示中引入张量乘法,从而将LRR子空间聚类算法拓展到高维数据;然后采用分布式并行计算得到低秩表示的系数张量,并对系数张量的每个侧面切片稀疏化,得到稀疏相似度矩阵.在公开数据集Extended YaleB、COIL20和UCSD上与DFC-LRR的对比实验结果表明,文中算法能有效地提高聚类正确率,且分布式计算能明显降低算法的运行时间.  相似文献   

2.
目的:更好地揭示高维数据的子空间结构,提高子空间聚类性能。方法:对系数矩阵施加Frobenius范数约束,并使其与稀疏矩阵充分接近,建立新的子空间表示模型,利用系数矩阵构造相似度矩阵,最后利用谱聚类算法得到聚类结果。结果与结论:新模型能得到类间稀疏和类内聚集的系数矩阵,提高了聚类性能,且能快速实现。  相似文献   

3.
稀疏子空间聚类是处理高维数据聚类的有效途径,而相似度矩阵的构造是稀疏子空间聚类的关键一步。文章引入子空间追踪算法来构造相似度矩阵,并由此给出了保证特征选择和特征再选择的充分条件。数值实验表明,子空间追踪算法所选择的原子相比经典的正交匹配追踪算法,其选择的原子更具代表性,精确特征选择率更高,聚类误差也得到了保留甚至更低。  相似文献   

4.
提出了一种基于隐空间的低秩稀疏子空间聚类算法,在聚类的过程中可以对高维数据进行降维,同时在低维空间中利用稀疏表示和低秩表示对数据进行聚类,大大降低了算法的时间复杂度.在运动分割和人脸聚类问题上的实验证明了算法的有效性.  相似文献   

5.
随着现有数据体量的迅速增长,超大规模中高维数据集的聚类问题变得越来越重要;而现有的子空间聚类算法大多是单机串行执行,处理此类问题效率极低。讨论了利用MapReduce对这类数据集进行并行聚类的方法,提出了基于MapReduce的抽样-忽略子空间聚类算法(sample-ignore subspace clustering using MapReduce,SISCMR)。该算法将串行聚类算法用作插件,具有很好的通用性。在人造和真实数据集上进行了大量实验,其中最大为0.2 TB的数据集在128个核心的集群中仅用不到10 min就完成了聚类,验证了该算法良好的聚类质量、近线性的可扩展性和高效的聚类性能,证明了基于MapReduce的并行聚类的可行性。  相似文献   

6.
子空间聚类能有效的发现各簇与所属于的子空间的联系,同时减少高维数据中因为数据冗余和不相关属性对聚类过程产生的干扰.已有的子空间聚类方法强调各子空间中簇的发现,往往忽略子空间的划分.提出了基于属性最大间隔的子空间聚类,该方法主要思想是对子空间的划分时信息的丢失达到最小,从而子空间聚类的结果的效果比较好.主要工作包括:第一,建立了子空间划分的目标函数,也就是使各划分的子空间相互依赖达到最小,第二,设计了基于属性最大间隔的子空间聚类算法Maximum Margin Subspace Clustering(MMSC)进行子空间聚类集成.最后,采用UCI和NIPS2013比赛等数据来做实验,结果表明,在大多数数据上MMSC算法比其他子空间算法能得到更好的聚类结果.  相似文献   

7.
一种鲁棒的子空间聚类算法   总被引:2,自引:1,他引:1  
针对聚类分析常面临的维数灾难和噪声污染问题,将样本加权思想与子空间聚类算法相结合,提出了一种鲁棒的子空间聚类算法.该算法结合现有子空间聚类方法,为每个类簇计算一个反映各维度聚类贡献程度的权矢量,并利用该权矢量对各维度加权组合,得到各类簇所处的子空间.此外,算法还为每个样本分配一个反映离群程度的尺度参数,以区分正常样本和离群点在聚类过程中的地位,保证算法的鲁棒性.在二维数据集、高维数据集以及基因数据集上的对比实验结果表明,对于具有不同噪声比例的各种维度数据集,该算法均能取得较高的聚类精度,表现出较好的鲁棒性.  相似文献   

8.
子空间聚类是一种将搜索局部化在相关维上进行的聚类算法,它能有效地克服数据因维度过高引起的在全空间上聚类的困难.针对高维分类型数据,本文提出了一种自底向上的子空间层次聚类算法,该算法在全局范围内建立一个最相似线性表用来记录每个簇类与其最相似的簇类的相似度,在聚类过程中,选取最相似的簇类合并,并通过维护此线性表产生最相似的簇类.此算法在基于信息熵的意义上能够较准确地搜索簇类的子空间.通过Zoo和Soybean两个典型的分类型数据实验发现,相对于其它相关聚类算法,该算法在聚类的准确率和稳定性方面表现出较高的优越性.  相似文献   

9.
一种新的子空间聚类算法   总被引:1,自引:0,他引:1  
通过对数据空间进行网格划分并寻找稀疏区域来发现类的边界,提出了一种基于密度与网格的新的子空间聚类算法.该算法使用投影寻踪的搜索策略来发现存在于子空间内的类,同时运用基于竞争的修剪方式来有效地控制算法的计算复杂性.实验结果表明,所提算法在精度、时间复杂性等方面具有优良性能.  相似文献   

10.
针对复杂机械设备故障诊断中特征量众多且对各种故障敏感程度不同的现象,提出了采用软子空间聚类算法来实现故障的识别方法。同时,针对传统软子空间聚类易陷入局部最优,目标函数设计受限制的缺点,又提出了采用进化计算实现聚类的方法。利用同类样本在相关特征维上方差小的假设,新的目标函数能更好地评价聚类结果的质量。在该算法中,通过设计类中心和权重值的混合编码以及聚类导向搜索算子,使算法更适于聚类问题的优化,而且设计的修复算子可有效地去除不合理的聚类结果。采用5组UCI数据集、2组轴承滚珠故障数据集和3组往复式压缩机气阀故障数据集对算法进行了测试,结果表明:该算法明显好于几种的软子空间聚类算法,在Rand指标上最多可高出0.226 6,并且对2组不同工况下一级缸气阀故障可实现100%的故障识别。  相似文献   

11.
传统软子空间聚类算法在利用局部搜索策略解决等式约束的连续非线性的变量加权问题时,易陷入局部最优导致聚类效果不佳.针对该问题,该文提出了一种随机学习萤火虫算法优化的模糊软子空间聚类算法.该算法利用具有全局搜索能力的萤火虫算法对新算法的目标函数进行优化,同时,为弥补萤火虫算法易提前收敛和寻优精度较低的缺陷,对萤火虫种群进化方式和全局最优粒子的学习方式进行了改进.新算法将权值矩阵拟化成萤火虫种群,使变量加权的等式约束变为界约束,通过萤火虫位置的更新搜索最优权重并发掘子空间中隐藏的簇类.在人工数据集、UCI标准数据集和癌症基因表达数据集上的实验结果表明:该算法具有较好的聚类效果.  相似文献   

12.
现有的优秀的聚类算法大多是处理低维数据的,但是对于高维数据,由于其分布特性与低维情形有很大的差异,这些算法失效.为解决高维分类型数据聚类问题,提出了一种基于粗糙集的高维分类型数据子空间聚类算法,基于粗糙集的上、下近似集的类边界描述,确定了类边界范围,然后采用相容度来调整类边界,聚类的过程采用增长子空间的思想,从低维到高维迭代地搜子空间类簇.最后通过在soybean、zoo数据集上的对比实验,实验结果表明了算法不仅可行,而且精度高.  相似文献   

13.
谱聚类算法建立在谱图划分理论基础上,与传统的聚类算法相比,它具有能在任意形状的样本空间上聚类且收敛于全局最优解的优点。然而,谱聚类算法涉及如何选取合适的尺度参数σ构造相似度矩阵的问题。并且,在处理大规模数据集时,聚类的过程需要较大的时间和内存开销。研究从构造相似度矩阵入手,以传统NJW算法为基础,提出一种基于K近邻的自适应谱聚类快速算法FA-SC。该算法能自动确定尺度参数σ;同时,对输入数据集分块处理,并用基于K近邻的稀疏相似度矩阵保存样本信息,减少计算的内存开销,提高了运行速度。通过实验,与传统谱聚类算法比较,FA-SC算法在人工数据集和UCI数据集上能够取得更好的聚类效果。  相似文献   

14.
电力负荷曲线聚类在电力大数据研究中有重要的应用。针对传统负荷聚类方法难以有效处理海量化的高维负荷数据,以及存在簇间样本模糊导致算法聚类质量不高、聚类效率低下等问题,提出一种结合多维缩放(multi-dimensional scaling, MDS)和一种新的集成簇间、簇内欧式距离的加权K-means方法(weighting k-means clustering approach by integrating intra-cluster and inter-cluster distances, KICIC)的聚类算法(MDS-KICIC)。该方法首先采用MDS算法对高维负荷数据进行数据降维处理,得到降维后的低维矩阵和归一化的特征值向量作为KICIC算法的输入矩阵和权重向量,KICIC通过在子空间内最大化簇中心与其他簇数据对象的距离来融合簇内和簇间的距离进行聚类,得到最终聚类结果。通过算例表明该方法运算时间短、聚类质量高,进一步提高了负荷曲线的聚类性能。  相似文献   

15.
研究表明,高维数据的聚类都隐含在低维的子空间内,而这些子空间就是把原始数据投影到某些维度上的交集,于是相应的聚类算法就变成如何寻找合适的子空间内容。在此提出了一种新的划分子空间方法——基于Parzen窗子空间划分方法,并在这基础上提出了新的投影聚类方法PCPW。通过与最新的EPCH算法的实验结果对比表明,两者聚类效果相当,但PCPW算法更简单,易于实现。  相似文献   

16.
张选平  祝兴昌  马琮 《西安交通大学学报》2007,41(12):1387-1390,1395
针对基于密度的聚类算法由高密度区到低密度区的处理顺序所带来的不能识别低密度对象类别的缺陷,通过对聚类过程中可能存在的边界识别进行讨论,提出了一种基于边界识别的聚类算法.该算法的思想是:同簇优先权高于密度优先权,即在选择下一个对象进行聚类时,在已聚类的对象中优先选择同一簇的对象,当对象沿某一方向扩展到达簇边界时停止扩展,转而向其他方向扩展,这种处理顺序能使得类别最大化.通过分析簇边界的密度变化特征,建立了边界识别准则,并根据该准则对数据进行聚类.通过在合成数据和美国加州大学提供的知识挖掘数据库数据集上的实验结果表明,所提算法能有效地处理低密度区域的数据,与识别聚类结构的对象排序算法相比,聚类效果可提高4%左右,而时间性能相当.  相似文献   

17.
目前的高属性维稀疏数据算法大多面向二态数据,而且没有聚类结果的评价方法,给应用带来很大局限。针对这些问题,给出一种基于信息粒度的高属性维聚类算法。首先通过设计面向数据稀疏特征的半模糊聚类算法对数据进行离散化,并基于此给出稀疏相似度和初始等价关系的定义,然后设计可变精度的二次聚类模型对初始聚类结果进行修正,使算法具有较强抗噪声能力,最后结合应用领域定义一种新的聚类质量的评价模型。实验证明,算法具有更广应用性,可提供多粒度分析结果,准确度更高,得到的聚类结果能真实反映数据的特征。  相似文献   

18.
不同视角特征构成的数据比单视角特征具有更多的信息,充分利用多视角特征可以提高聚类效果.由于不同视角空间中的特征不具有可比性,基于线性表示理论的子空间学习方法通过学习表示矩阵挖掘互补信息.但现实数据多是非线性的,线性表示理论不利于发现数据的非线性关系.针对该问题,采用非线性投影及流形正则项来刻画多视角下的非线性数据,实验结果表明,所提方法能够对多视角数据进行有效聚类.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号