首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 140 毫秒
1.
现有的优秀的聚类算法大多是处理低维数据的,但是对于高维数据,由于其分布特性与低维情形有很大的差异,这些算法失效.为解决高维分类型数据聚类问题,提出了一种基于粗糙集的高维分类型数据子空间聚类算法,基于粗糙集的上、下近似集的类边界描述,确定了类边界范围,然后采用相容度来调整类边界,聚类的过程采用增长子空间的思想,从低维到高维迭代地搜子空间类簇.最后通过在soybean、zoo数据集上的对比实验,实验结果表明了算法不仅可行,而且精度高.  相似文献   

2.
基于加权的软子空间聚类是处理高维数据的一种有效手段,在原有的软子空间聚类算法基础上对目标函数进行改进,从而结出一种新的软子空间聚类算法.相较之原算法,此算法具有更高的抗噪性及聚类效率;通过与典型的软子空间聚类算法比较试验,结果表明可有效提高海量高维数据的聚类处理效率.  相似文献   

3.
提出了一种基于微簇的两阶段高维数据流聚类算法.首先,对新到达的数据进行降维处理,使用改进的线性判别分析方法获得一个局部投影子空间;然后,在子空间内最大化流入数据近邻微簇之间的距离;最终,将流入数据划分到投影空间的微簇中.基于高维数据流的实验结果显示,本算法的分类性能优于其他的数据流聚类算法,并且具有较低的计算复杂度.  相似文献   

4.
现有基于低秩表示的子空间聚类算法(LRR)无法有效地处理大规模数据,聚类正确率不高,以及分布式低秩子空间聚类算法(DFC-LRR)不能直接处理高维数据.为此,文中提出了一种基于张量和分布式方法的子空间聚类算法.该算法首先将高维数据视为张量,在数据的自表示中引入张量乘法,从而将LRR子空间聚类算法拓展到高维数据;然后采用分布式并行计算得到低秩表示的系数张量,并对系数张量的每个侧面切片稀疏化,得到稀疏相似度矩阵.在公开数据集Extended YaleB、COIL20和UCSD上与DFC-LRR的对比实验结果表明,文中算法能有效地提高聚类正确率,且分布式计算能明显降低算法的运行时间.  相似文献   

5.
子空间聚类是一种将搜索局部化在相关维上进行的聚类算法,它能有效地克服数据因维度过高引起的在全空间上聚类的困难.针对高维分类型数据,本文提出了一种自底向上的子空间层次聚类算法,该算法在全局范围内建立一个最相似线性表用来记录每个簇类与其最相似的簇类的相似度,在聚类过程中,选取最相似的簇类合并,并通过维护此线性表产生最相似的簇类.此算法在基于信息熵的意义上能够较准确地搜索簇类的子空间.通过Zoo和Soybean两个典型的分类型数据实验发现,相对于其它相关聚类算法,该算法在聚类的准确率和稳定性方面表现出较高的优越性.  相似文献   

6.
子空间聚类已经广泛应用于多个涉及高维数据聚类应用领域,受到机器学习研究者的广泛关注.子空间聚类方法是一种使用特征选择的聚类分析技术,通过选择重要特征子集实现对高维空间的低维表示,在实际应用中能够取得更好的性能,成为流行的高维数据聚类方法.与硬聚类方法相比,软聚类能够给出复杂数据更有意义的划分.扩展k-均值聚类并提出基于可靠性的正则化加权软k-均值新的子空间聚类方法(Reliability-based regularized weighted soft k-means clustering algorithm,RRWSKM),该方法能够计算每个特征对每个聚类的贡献度,从而找到与不同聚类相关的重要特征子集.另外,该方法能够通过调整模型参数准确地辨识数据模式,具有良好的聚类性能.该方法把维度加权熵和划分熵作为正则化项引入到目标函数,避免过拟合问题同时使更多的特征参与辨识聚类.为了提高算法的鲁棒性,使用可靠性测度获得特征权重初始值,提高算法的可靠性和性能.考虑到该算法是非凸优化问题,使用迭代优化方法得到优化问题的最优解.使用多个实际数据集对本文算法进行仿真验证,结果表明,与其他子空间聚类算法相比,该算法能够有效发现高维数据的低维表示,具有良好的聚类性能,适合高维数据的聚类.  相似文献   

7.
大数据时代背景下,随着所获数据数量和维度的不断增加,高维数据的处理成为聚类分析的重点和难点.基于同一类别高维数据通常分布在高维环绕空间的低维子空间这一事实,子空间聚类成为高维数据聚类分析领域的重要方法.稀疏子空间聚类(Sparse Space Clustering,SSC)通过交替方向乘子法(Alternating Direction Method of Multipliers,ADMM)对数据矩阵的稀疏自表达系数进行求解,发现分布于低维子空间并集中的数据的稀疏表示并进行聚类.但是ADMM参数多、收敛速度慢,其效率难以满足对大规模数据库进行聚类分析的要求.针对这一问题提出了基于L_0约束的稀疏子空间聚类方法,该方法使用正交匹配追踪(Orthogonal Matching Pursuit,OMP)算法求解L_0约束的自表达稀疏重建问题,构建数据集中各数据之间的相关性矩阵,最终对相关性矩阵应用谱聚类方法得到聚类结果.根据OMP算法每次迭代之间的耦合关系对其进行优化,进一步降低了计算复杂度,提高了算法效率.在生成数据和Extended Yale B database人脸数据库的实验结果表明,该算法与SSC相比,在显著减少计算时间的基础上,取得了与SSC相当的聚类准确率.  相似文献   

8.
在现有的稀疏子空间聚类算法基础上提出了一个改进的稀疏子空间聚类算法。首先,利用高维数据可以通过同一子空间的低维数据稀疏地表示这一理论,建立一个稀疏最优化模型,获得稀疏矩阵。然后把稀疏矩阵应用到一个正则化谱聚类算法中,从而有效地把数据聚类到子空间中。最后,该算法应用到一个视频序列中,对每个视频帧里的运动物体进行识别,并与现有的子空间聚类算法相比较。实验结果表明,该算法能够有效地识别运动物体,具有良好的实时性和有效性。  相似文献   

9.
研究表明,高维数据的聚类都隐含在低维的子空间内,而这些子空间就是把原始数据投影到某些维度上的交集,于是相应的聚类算法就变成如何寻找合适的子空间内容。在此提出了一种新的划分子空间方法——基于Parzen窗子空间划分方法,并在这基础上提出了新的投影聚类方法PCPW。通过与最新的EPCH算法的实验结果对比表明,两者聚类效果相当,但PCPW算法更简单,易于实现。  相似文献   

10.
针对高维数据聚类分析中数据之间具有多种非线性特征关系,导致数据分布不均、传统相似性度量失效及结果类中心难以精准表征等问题,提出了一种基于核主元分析(KPCA)与密度聚类(DBSCAN)的高维非线性特征数据聚类分析技术。首先,为有效提取高维数据的非线性特征,利用KPCA理论将原始数据映射到更高维数据空间,利用主元分析获得数据变化的方向集合,并进行降维分析;然后,通过重新定义数据样本在主元空间的相似性距离对传统DBSCAN聚类方法进行改进,并利用3δ统计理论对各簇中心的进行表征,从而实现高维数据的精确分类与类中心知识表达。以实际高血压患者群体聚类问题为例对方法进行了有效性验证,实验表明,所提方法可以有效获取原始数据的非线性特征,实现患者个体特征群体的有效划分及簇类中心知识的表达,解决传统DBSCAN聚类方法对高维数据不适用的问题。  相似文献   

11.
提出了一种基于隐空间的低秩稀疏子空间聚类算法,在聚类的过程中可以对高维数据进行降维,同时在低维空间中利用稀疏表示和低秩表示对数据进行聚类,大大降低了算法的时间复杂度.在运动分割和人脸聚类问题上的实验证明了算法的有效性.  相似文献   

12.
空间听觉重建中,头相关传输函数(head-related transfer function,HRTF)庞大的数据量是影响虚拟声源合成效率的主要因素之一.为了减少HRTF的数据存储,提出一种局部线性嵌入(locally linear embedding,LLE)空间听觉重建方法.通过LLE对高维HRTF数据进行降维,在低维数据空间提取与方位感知相关的特征,然后利用聚类算法进行分类,得到特征HRTF,而其余非特征HRTF则可以利用特征HRTF通过改进插值算法进行重构.与现有的主成分分析法(principal component analysis,PCA)相比,利用LLE降维后的数据保留了更多的感知信息,利用HRTF数据间的内在关系,对插值后的数据进行修正,可减少重建误差.仿真结果表明,该方法能够有效地减少HRTF的存储数据量,有利于提高虚拟声源的合成效率.  相似文献   

13.
一种鲁棒的子空间聚类算法   总被引:2,自引:1,他引:1  
针对聚类分析常面临的维数灾难和噪声污染问题,将样本加权思想与子空间聚类算法相结合,提出了一种鲁棒的子空间聚类算法.该算法结合现有子空间聚类方法,为每个类簇计算一个反映各维度聚类贡献程度的权矢量,并利用该权矢量对各维度加权组合,得到各类簇所处的子空间.此外,算法还为每个样本分配一个反映离群程度的尺度参数,以区分正常样本和离群点在聚类过程中的地位,保证算法的鲁棒性.在二维数据集、高维数据集以及基因数据集上的对比实验结果表明,对于具有不同噪声比例的各种维度数据集,该算法均能取得较高的聚类精度,表现出较好的鲁棒性.  相似文献   

14.
针对舰艇舱室挥发性有机化合物采样数据,利用主成分分析法对21种有机化合物气体进行分析以确定各种有机化合物的主要来源,在主成分分析获得的降维数据基础上,进一步采用K-均值聚类算法对有机化合物进行分类,根据聚类结果制定了舱室污染等级评价标准,实现舱室挥发性有机化合物高、中、低污染等级分类.  相似文献   

15.
 采矿方法优选涉及到多指标体系的分类及综合评价问题,利用主成分分析简化了指标结构,将主成分分析与聚类分析相结合,提出了主成分聚类分析法,并基于该方法对来自某矿山的15个试样的采矿方法进行了优选。在此过程中,针对传统主成分分析方法的缺点和应用中可能出现的误区,通过均值化改进了主成分分析的特征提取,通过以主成分得分为新的数据基础做聚类分析改善了综合评价效果;对主成分含义给出了较为明确的解释;对主成分聚类、第一主成分得分、主成分综合得分的排序结果进行了对比分析。研究表明,主成分聚类分析法则既可以对多变量数据进行合理地分类,又能对各类优劣程度做出综合评价,能充分反映矿山的实际情况,终选出的采矿方法在工业试验后成效显著,验证了该决策方法是切实可行的。  相似文献   

16.
为了将高维输入空间的数据映射到低维空间,利用可视化技术探测数据的固有特性,提出了用非线性主成分分析(NLPCA:NonLinear Principal Component Analysis)和自组织映射网络相结合的方法对生物信息学中基因表达数据进行聚类可视化分析。实验结果表明,该方法有较高的分类正确率,用于基因表达数据的聚类分析是行之有效的。  相似文献   

17.
稀疏子空间聚类是处理高维数据聚类的有效途径,而相似度矩阵的构造是稀疏子空间聚类的关键一步。文章引入子空间追踪算法来构造相似度矩阵,并由此给出了保证特征选择和特征再选择的充分条件。数值实验表明,子空间追踪算法所选择的原子相比经典的正交匹配追踪算法,其选择的原子更具代表性,精确特征选择率更高,聚类误差也得到了保留甚至更低。  相似文献   

18.
针对高维数据的非线性特性会降低最小二乘回归(LSR)子空间聚类的性能,提出两阶段LSR(TLSR)子空间聚类方法.该方法利用LSR的表示系数定义局部信息惩罚项,构造局部约束LSR方法.在8个数据集上的实验表明该方法适合高维数据的聚类.  相似文献   

19.
水文分区有各种方法,文章提出了集模糊聚类与主成分分析方法的各优点组合的水文分区方法,首先采用主成分分析法获得水文特性主成分属性,然后运用模糊聚类算法NFC(Net Fuzzy Cluster)进行模糊聚类.利用主成分分析法对分区指标进行降维处理,简化了计算.应用NFC模糊聚类,在一定程度上解决了FCM算法局部极值问题且具有良好的聚类性能,实现了聚类的科学化与自动化.对安徽省淮河流域的124 716个原始水文数据进行实验,结果表明,与传统分区方法相比,所提出的方法有效地改善了时间性能,提高了求解精度,所得结果为水文站网规划提供了理论依据.  相似文献   

20.
电力负荷曲线聚类在电力大数据研究中有重要的应用。针对传统负荷聚类方法难以有效处理海量化的高维负荷数据,以及存在簇间样本模糊导致算法聚类质量不高、聚类效率低下等问题,提出一种结合多维缩放(multi-dimensional scaling, MDS)和一种新的集成簇间、簇内欧式距离的加权K-means方法(weighting k-means clustering approach by integrating intra-cluster and inter-cluster distances, KICIC)的聚类算法(MDS-KICIC)。该方法首先采用MDS算法对高维负荷数据进行数据降维处理,得到降维后的低维矩阵和归一化的特征值向量作为KICIC算法的输入矩阵和权重向量,KICIC通过在子空间内最大化簇中心与其他簇数据对象的距离来融合簇内和簇间的距离进行聚类,得到最终聚类结果。通过算例表明该方法运算时间短、聚类质量高,进一步提高了负荷曲线的聚类性能。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号