首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 797 毫秒
1.
现有基于低秩表示的子空间聚类算法(LRR)无法有效地处理大规模数据,聚类正确率不高,以及分布式低秩子空间聚类算法(DFC-LRR)不能直接处理高维数据.为此,文中提出了一种基于张量和分布式方法的子空间聚类算法.该算法首先将高维数据视为张量,在数据的自表示中引入张量乘法,从而将LRR子空间聚类算法拓展到高维数据;然后采用分布式并行计算得到低秩表示的系数张量,并对系数张量的每个侧面切片稀疏化,得到稀疏相似度矩阵.在公开数据集Extended YaleB、COIL20和UCSD上与DFC-LRR的对比实验结果表明,文中算法能有效地提高聚类正确率,且分布式计算能明显降低算法的运行时间.  相似文献   

2.
提出了一种基于隐空间的低秩稀疏子空间聚类算法,在聚类的过程中可以对高维数据进行降维,同时在低维空间中利用稀疏表示和低秩表示对数据进行聚类,大大降低了算法的时间复杂度.在运动分割和人脸聚类问题上的实验证明了算法的有效性.  相似文献   

3.
模糊C-means算法是一种重要的聚类分析算法,但是在数据维数较高的情况下,该算法计算量急剧上升从而导致其效率较低.针对这一问题,提出了一种基于粗糙集理论的模糊C-means高维数据聚类算法,该算法在传统模糊C-means算法的基础上引入了粗糙集属性约简的理念,通过对数据集属性的约简,提取出对分类影响较大的属性集而摒弃与分类无关的属性,进而在聚类过程中只计算属性约简结果集中的属性,从而减少聚类过程的工作量、提高聚类效率.理论分析和实验结果表明,该算法在处理高维数据时较高效.  相似文献   

4.
子空间聚类是一种将搜索局部化在相关维上进行的聚类算法,它能有效地克服数据因维度过高引起的在全空间上聚类的困难.针对高维分类型数据,本文提出了一种自底向上的子空间层次聚类算法,该算法在全局范围内建立一个最相似线性表用来记录每个簇类与其最相似的簇类的相似度,在聚类过程中,选取最相似的簇类合并,并通过维护此线性表产生最相似的簇类.此算法在基于信息熵的意义上能够较准确地搜索簇类的子空间.通过Zoo和Soybean两个典型的分类型数据实验发现,相对于其它相关聚类算法,该算法在聚类的准确率和稳定性方面表现出较高的优越性.  相似文献   

5.
一种鲁棒的子空间聚类算法   总被引:2,自引:1,他引:1  
针对聚类分析常面临的维数灾难和噪声污染问题,将样本加权思想与子空间聚类算法相结合,提出了一种鲁棒的子空间聚类算法.该算法结合现有子空间聚类方法,为每个类簇计算一个反映各维度聚类贡献程度的权矢量,并利用该权矢量对各维度加权组合,得到各类簇所处的子空间.此外,算法还为每个样本分配一个反映离群程度的尺度参数,以区分正常样本和离群点在聚类过程中的地位,保证算法的鲁棒性.在二维数据集、高维数据集以及基因数据集上的对比实验结果表明,对于具有不同噪声比例的各种维度数据集,该算法均能取得较高的聚类精度,表现出较好的鲁棒性.  相似文献   

6.
一种自适应局部线性嵌入与谱聚类融合的故障诊断方法   总被引:4,自引:1,他引:3  
针对数据维数高、非线性且从高维观测空间分析数据模式困难的问题,将改进的流形学习算法引入到数据聚类中,提出了一种结合自适应局部线性嵌入和递归调用规范切融合的新方法.采用自适应局部线性嵌入对原始数据进行非线性降维,应用递归调用规范切对低维空间数据进行聚类,通过对3组UCI标准测试数据集的仿真实验表明,新方法能够将高维数据有效地映射到低维本质空间,克服了传统方法对数据集结构的依赖性,从而显著提高了谱聚类算法分类的准确性和稳定性.同时,对于田纳西-伊斯曼过程的数据实验,表明了该方法对故障模式识别的可行性和有效性.  相似文献   

7.
提出了一种基于微簇的两阶段高维数据流聚类算法.首先,对新到达的数据进行降维处理,使用改进的线性判别分析方法获得一个局部投影子空间;然后,在子空间内最大化流入数据近邻微簇之间的距离;最终,将流入数据划分到投影空间的微簇中.基于高维数据流的实验结果显示,本算法的分类性能优于其他的数据流聚类算法,并且具有较低的计算复杂度.  相似文献   

8.
提出一种基于单维分割的高维数据聚类算法HDCA_SDP, 该算法利用单维空间能划分数据的性质,对整个数据集进行逐维聚类,解决了传统聚类算法带来的维度困扰问题,对数据集大小和数据空间维数具有良好的可伸缩性,且聚类结果的精度比传统的高维聚类算法有较大的提高. 实验结果表明,该算法在处理高维大规模数据时是有效的.  相似文献   

9.
针对高维数据引起的"维数灾难"问题,设计了一种基于神经网络树和人工蜂群优化的高维数据聚类算法.首先,设计了改进的二元人工蜂群优化算法,以封装式方法最大化径向基函数网络的准确率,以过滤式方法最小化特征的冗余度;然后,基于每个特征子集的样本集训练径向基函数网络,构建以径向基函数网络为节点的神经树;最终,采用门网络将连接的类簇分离,获得最终的聚类结果.基于高维数据集和低维数据集均完成了仿真实验,结果表明本算法对于高维数据集实现了较高的聚类准确率.  相似文献   

10.
基于局部线性嵌入的半监督仿射传播聚类算法   总被引:1,自引:0,他引:1  
针对运用半监督仿射传播聚类算法处理高维数据时聚类精度低和计算量大的问题,提出一种基于局部线性嵌入的半监督仿射传播聚类算法.该算法首先通过LLE算法将高维输入数据集映射到低维空间得到低维数据集,计算低维数据集的相似度矩阵,再用半监督算法调整相似度矩阵,最后用仿射传播聚类算法对低维数据进行聚类分析.仿真结果表明,本文提出的算法与半监督仿射传播聚类算法相比,在处理高维数据时聚类效果更好,精度更高,迭代次数更少.  相似文献   

11.
针对传统聚类算法效率低、效果差和稳定性弱等弊端,提出一种新的云计算环境下关联性大数据实时流式可控聚类算法。介绍了关联性实时流式数据的定义和特点。通过粗聚类对实时抵达的数据元组进行相应的预处理,确定类簇的数量与中心点位置,形成通过存在差异的宏簇构成的集合,粗聚类采用的算法为Canopy算法。将粗聚类得到的宏簇传至K-means算法,给出了K-means算法的详细步骤,通过K-means算法完成细聚类,介绍了整个细聚类详细步骤。实验结果表明,所提算法具有效率高、质量好、稳定性强等优势,可有效实现云计算环境下关联性实时流式大数据聚类。  相似文献   

12.
Gen-Cluster:一个基因表达数据的高维聚类算法   总被引:1,自引:0,他引:1  
基因表达数据聚类是分析基因之间共调控关系的重要手段.挖掘子空间中表达值存在差异但变化趋势保守的序列已成为基因表达数据聚类的主要研究内容之一.在N-同维趋势相似定义的基础上,提出了一个基因表达数据的高维聚类算法Gen-Cluster,将基因表达值转化为序列形式,采用无重复投影且无候选生成的序列模式挖掘策略自底向上挖掘N-同维趋势模式,并解决了OP-Cluster算法不能挖掘含有项集的序列模式问题,最终得到表达值变化趋势保守的基因序列形成的N-同维趋势簇.实验采用Breast Tumor和MicroRNA表达数据集,验证挖掘结果是有效的,且较OP-Cluster算法表现更高效率,并涵盖其结果.  相似文献   

13.
基于属性相关性分析的子空间搜索算法   总被引:1,自引:0,他引:1  
在高维子空间聚类算法中,子空间识别质量有助于改善算法性能.提出了基于属性相关性分析的子空间搜索算法,利用相对熵去除冗余属性,根据联合基尼值判断两两非冗余属性之间的相关性,形成属性关系图,并在此属性关系图上搜索相似兴趣子空间.实验结果表明算法参数容易设置,有较好的子空间识别能力.  相似文献   

14.
研究表明,高维数据的聚类都隐含在低维的子空间内,而这些子空间就是把原始数据投影到某些维度上的交集,于是相应的聚类算法就变成如何寻找合适的子空间内容。在此提出了一种新的划分子空间方法——基于Parzen窗子空间划分方法,并在这基础上提出了新的投影聚类方法PCPW。通过与最新的EPCH算法的实验结果对比表明,两者聚类效果相当,但PCPW算法更简单,易于实现。  相似文献   

15.
提出一种基于C-均值聚类的二层次人像聚类算法,解决了传统硬聚类中由于每个数据只能属于某一类而使得处于类边界的数据在检索时结果准确度不高, 以及对高维大数据量数据分类时存在的模糊聚类时间和空间复杂性过大等问题. 该算法为大规模人像数据库检索提供了一种可行的分类方法, 使得分类后的人像数据在有效提高检索速度的同时保证了检索的准确度.  相似文献   

16.
张选平  祝兴昌  马琮 《西安交通大学学报》2007,41(12):1387-1390,1395
针对基于密度的聚类算法由高密度区到低密度区的处理顺序所带来的不能识别低密度对象类别的缺陷,通过对聚类过程中可能存在的边界识别进行讨论,提出了一种基于边界识别的聚类算法.该算法的思想是:同簇优先权高于密度优先权,即在选择下一个对象进行聚类时,在已聚类的对象中优先选择同一簇的对象,当对象沿某一方向扩展到达簇边界时停止扩展,转而向其他方向扩展,这种处理顺序能使得类别最大化.通过分析簇边界的密度变化特征,建立了边界识别准则,并根据该准则对数据进行聚类.通过在合成数据和美国加州大学提供的知识挖掘数据库数据集上的实验结果表明,所提算法能有效地处理低密度区域的数据,与识别聚类结构的对象排序算法相比,聚类效果可提高4%左右,而时间性能相当.  相似文献   

17.
为解决实时分析处理的海洋 Argo 浮标剖面观测数据特有的数据密度较高、快速响应且需要识别任意形状簇等问题, 提出了一种可通过单次扫描数据集进行有效处理的低复杂度聚类算法 DBIRCH( Density-BasedBalanced Iterative Reducing and Clustering Using Hierarchies)。 该算法通过使用新引入的参数密度阈值修正因子,动态的更新限制 CF(Clustering Feature)树生长的约束系数子空间阈值, 同时结合密度关联思想在不同邻域内多次建立 CF 树且合并, 最终以核心 CF 树子节点为聚类结果输出, 避免了 BIRCH(Balanced Iterative Reducing and Clustering Using Hierarchies)算法对参数的过度依赖, 同时因能处理任意形状簇从而提升了数据处理的整体鲁棒性, 提高了处理 Argo 剖面监测数据的时效性和算法的整体吞吐速度。 为测试算法的综合性能, 使用真实 Argo浮标剖面实时监测数据集, 并根据不同的参数对算法做出多组对比实验, 同时使用不同评价指标对算法从运行时间和聚类准确率上进行综合评估, 从全局角度分析该算法在 DBSCAN(Density-Based Spatial Clustering of Applications with Noise)、 BIRCH 及 DBIRCH 3 种不同算法中综合聚类性能最优。 实验结果表明, 在3 种算法中,BIRCH 算法运算速度最快, 但准确率最低; DBSCAN 算法聚类性能高于 BIRCH 算法, 但运算速度最慢; 改进的DBIRCH 算法运算效率略低于 BIRCH 算法, 但聚类准确率最高。  相似文献   

18.
在现有的稀疏子空间聚类算法基础上提出了一个改进的稀疏子空间聚类算法。首先,利用高维数据可以通过同一子空间的低维数据稀疏地表示这一理论,建立一个稀疏最优化模型,获得稀疏矩阵。然后把稀疏矩阵应用到一个正则化谱聚类算法中,从而有效地把数据聚类到子空间中。最后,该算法应用到一个视频序列中,对每个视频帧里的运动物体进行识别,并与现有的子空间聚类算法相比较。实验结果表明,该算法能够有效地识别运动物体,具有良好的实时性和有效性。  相似文献   

19.
 为了解决申贷信用等级评价问题,介绍了解决银行申请贷款信用等级评价中聚类分析采用的基本概念及术语,提出了2种聚类算法包括基于信贷数据的聚类算法δ-kmeans;基于高维信贷数据的聚类算法ASC,并通过实验对其性能进行比较分析,实验表明:①δ-kmeans算法在信贷风险的控制上取得较好效果;②相比传统k-means和Coweb算法,ASC算法在聚类高维信贷数据上更加有效.利用k-means算法对银行信贷数据的聚类动力学关系进行分析.最后,给出了聚类分析算法在银行信贷领域应用的的难点.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号