首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 131 毫秒
1.
提出一种新的稀疏谱聚类算法——基于PAM算法的HSSPAM聚类(high-dimensional sparse spectral clustering based on partitioning around medoids).该算法先用高相关系数过滤及主成分分析降维方法以有效减小甚至消除维度灾难对高维数据处理的影响,再采用Minkowski距离指数变换函数及稀疏化算法来构建分块对角矩阵以重新解释样本之间的相似度;然后构造新颖的拉普拉斯矩阵以实现进一步压缩数据矩阵,进而结合partitioning around medoids(PAM)算法取代传统谱聚类中的K-means算法对特征向量聚类以提高算法的聚类稳定性;最后引入高维基因数据设计了实验,并以不同的聚类评价指标来衡量该研究算法的聚类质量,实验结果表明,新算法能够更精确、更稳定地对基因数据聚类.  相似文献   

2.
现有基于低秩表示的子空间聚类算法(LRR)无法有效地处理大规模数据,聚类正确率不高,以及分布式低秩子空间聚类算法(DFC-LRR)不能直接处理高维数据.为此,文中提出了一种基于张量和分布式方法的子空间聚类算法.该算法首先将高维数据视为张量,在数据的自表示中引入张量乘法,从而将LRR子空间聚类算法拓展到高维数据;然后采用分布式并行计算得到低秩表示的系数张量,并对系数张量的每个侧面切片稀疏化,得到稀疏相似度矩阵.在公开数据集Extended YaleB、COIL20和UCSD上与DFC-LRR的对比实验结果表明,文中算法能有效地提高聚类正确率,且分布式计算能明显降低算法的运行时间.  相似文献   

3.
大数据时代背景下,随着所获数据数量和维度的不断增加,高维数据的处理成为聚类分析的重点和难点.基于同一类别高维数据通常分布在高维环绕空间的低维子空间这一事实,子空间聚类成为高维数据聚类分析领域的重要方法.稀疏子空间聚类(Sparse Space Clustering,SSC)通过交替方向乘子法(Alternating Direction Method of Multipliers,ADMM)对数据矩阵的稀疏自表达系数进行求解,发现分布于低维子空间并集中的数据的稀疏表示并进行聚类.但是ADMM参数多、收敛速度慢,其效率难以满足对大规模数据库进行聚类分析的要求.针对这一问题提出了基于L_0约束的稀疏子空间聚类方法,该方法使用正交匹配追踪(Orthogonal Matching Pursuit,OMP)算法求解L_0约束的自表达稀疏重建问题,构建数据集中各数据之间的相关性矩阵,最终对相关性矩阵应用谱聚类方法得到聚类结果.根据OMP算法每次迭代之间的耦合关系对其进行优化,进一步降低了计算复杂度,提高了算法效率.在生成数据和Extended Yale B database人脸数据库的实验结果表明,该算法与SSC相比,在显著减少计算时间的基础上,取得了与SSC相当的聚类准确率.  相似文献   

4.
文本数据具有高维、稀疏、海量的特性,给传统的聚类算法带来了极大挑战.提出一种基于t-分布随机近邻嵌入(t-Distributed Stochastic Neighbor Embedding,t-SNE)的文本聚类方法.首先通过t-SNE将高维文本数据嵌入到低维空间,使得高维空间相似度较低的文本对应的映射点距离较远,而相似度较高的文本对应的映射点距离较近;然后根据低维空间映射点坐标,再采用传统的聚类分析算法进行聚类,得到最终的聚类结果.在多个基准文本数据集上进行了实验测试,验证了该方法的有效性.  相似文献   

5.
提出了一种新的谱聚类算法:基于K-Medoids的SSKM聚类,不仅利用距离指数变换函数及稀疏化算法构建了分块对角矩阵以重新解释样本之间的相似度,还结合PAM算法取代传统谱聚类中的k-means算法对特征向量聚类以提高算法的聚类稳定性.为了使SSKM算法能够有效地处理高维数据,引入了高相关系数过滤及主成分分析降维技术,提出了SSKM算法的新版本HSSKM,能够识别高维数据结构以减少原始数据的特征规模.模拟数据及高维基因表达数据结果表明新算法具有聚类稳定、聚类结果更精确等显著性能.  相似文献   

6.
传统吸引子传播聚类算法对数据类型敏感,文中提出一种改进的吸引子传播聚类算法,将JACCARD系数引入对象间属性分布相似度,并与吸引子传播聚类算法结合。仿真实验结果表明,该算法收敛速度快,聚类精度高,明显提高高维稀疏数据的聚类性能。  相似文献   

7.
鉴于高维数据的稀疏性和分类数据特点,探讨了专门针对高维分类数据的聚类方法.首先将原始数据集转换成频繁项集,再通过改造频繁模式树以及给出的剪切策略,挖掘出事务的最大频繁项集,并基于最大频繁项集(MFI)的两个属性,将具有相同MFI的对象归于一类,由此提出了基于最大频繁项集的聚类算法.通过对分类数据集的实验,表明该算法具有相当的稳定性、健壮性和有效性.  相似文献   

8.
提出了一种基于隐空间的低秩稀疏子空间聚类算法,在聚类的过程中可以对高维数据进行降维,同时在低维空间中利用稀疏表示和低秩表示对数据进行聚类,大大降低了算法的时间复杂度.在运动分割和人脸聚类问题上的实验证明了算法的有效性.  相似文献   

9.
提出一种基于单维分割的高维数据聚类算法HDCA_SDP, 该算法利用单维空间能划分数据的性质,对整个数据集进行逐维聚类,解决了传统聚类算法带来的维度困扰问题,对数据集大小和数据空间维数具有良好的可伸缩性,且聚类结果的精度比传统的高维聚类算法有较大的提高. 实验结果表明,该算法在处理高维大规模数据时是有效的.  相似文献   

10.
针对高维数据的非线性特性会降低最小二乘回归(LSR)子空间聚类的性能,提出两阶段LSR(TLSR)子空间聚类方法.该方法利用LSR的表示系数定义局部信息惩罚项,构造局部约束LSR方法.在8个数据集上的实验表明该方法适合高维数据的聚类.  相似文献   

11.
借鉴邻域粗糙集处理连续型数据的优势,为解决传统谱聚类算法需要人工选取参数的问题,提出基于自适应邻域互信息与谱聚类的特征选择算法。首先,定义各对象在属性下的标准差集合与自适应邻域集,给出自适应邻域熵、平均邻域熵、联合熵、邻域条件熵、邻域互信息等不确定性度量,利用自适应邻域互信息对特征与标签的相关性进行排序。然后,结合共享近邻自适应谱聚类算法,将相关性强的特征聚到同一特征簇内,使不同特征簇内的特征强相异。最后,使用最小冗余最大相关技术设计特征选择算法。在10个数据集上选择特征个数与分类精度的实验结果,验证了所提算法的有效性。  相似文献   

12.
基于提供的11种聚类外部指标来组合多个聚类,通过单个对象的簇标记变化递增地更新目标函数来求出共识聚类,并利用模拟退火优化算法框架来解决局部最优问题。在UCI和TREC数据库中选取10个数据集进行几种算法的外部指标聚类性能评估实验,从实验数据的归一化角度和排序角度评估不同外部指标的聚类性能,结果表明:MSS3指标从整体性能表现上最适合用于引导聚类集成,可以作为算法默认的共识函数;基于模拟退火优化算法的聚类集成算法在7个数据集上优于其他聚类方法,而DBSCAN、MCLA、Kmearns算法则在其余3个数据集上表现最好。  相似文献   

13.
双聚类(Biclustering)算法是一种横向纵向同时进行的数据挖掘的聚类算法,主要用于生物信息学上对高维复杂的数据进行聚类,以平均平方残基作为筛选标准,贪婪迭代的方法来选取数据.传统双聚类算法聚出来的簇通常不是预想的结果,迭代次数越多偏差就越大,对于庞大的数据精确度会更小,而模糊集理论可以改进这种迭代产生偏差与得不蓟预想结果的不足.为了获得更加好的实验结果,用模糊数学中的隶属矩阵和综合评判等方法改进双聚类的算法,使得聚类结果更精确更具有一致性,便于发现数据的关联性.  相似文献   

14.
The demand for individualized teaching from Elearning websites is rapidly increasing due to the huge differences existed among Web learners. A method for clusteringWeb learners based on rough set is proposed. The basic ideaof the method is to reduce the learning auributes prior to clustering, and therefore the clustering of Web learners iscarried out in a relative low-dimensional space. Using thismethod, the E-learning websites can arrange correspondingleaching content for different clusters of learners so that thelearners‘ individual requirements can be more satisfied.  相似文献   

15.
简要介绍了一种将粗糙集理论应用于传统的聚类算法 ,从而改进了算法的效率 ,并以Iris数据集为例说明了这种思想 .  相似文献   

16.
一种基于区间数多指标信息的聚类方法   总被引:3,自引:0,他引:3  
针对一类特征指标值及指标权重均为区间数的多指标信息聚类问题,给出了一种最大树聚类分析方法·首先对区间数多指标信息聚类问题进行了描述;然后依据传统的基于数值信息的最大树模糊聚类分析方法的基本思路,给出了解决区间数多指标信息聚类问题的计算步骤·最后,通过给出一个算例说明了所给出的聚类方法·  相似文献   

17.
K -均值聚类算法在当前提取数据挖掘的聚类分析方法中已经取得了一定的成就,为了进一步改进其在数据预处理及神经网络结构中的应用,文中对算法进行了缺陷研究,主要做了以下几个方面的工作:对K-means算法进行了思路及算法主要流程分析;得出K-均值聚类算法存在简单、迅速、结果簇密集、簇与簇之间区别较为明显等优点;分析得出算法存在与处理符号属性的数据不太适应、必须事先给出k值(想要生成的簇的个数)、对“噪声数据”以及孤立的点数据有较大影响、需要不断计算更新调整后的新聚类中心等缺点。在实验验证中结果得出:聚类结果可知,选取不同的值初始值对聚类结果的影响很小;如果聚类数据集迭代次数较多时,可以尝试着改变其数据的输入顺序;变动数据集的输入顺序,会直接影响聚类结果。实验结果对于K-均值算法的工作效率提高了具有明显的参考价值,这一研究对于数据挖掘技术的改进具有一定的意义。  相似文献   

18.
个性化推荐系统中遗漏值处理方法的研究   总被引:2,自引:0,他引:2  
为了高效地解决协同过滤算法中的遗漏值问题,而不是简单地用缺省值加以代替,提出了一种新的、在协同过滤中的遗漏值处理方法.其基本思想是,先利用具有最小方差的局部主成分,把包含有遗漏值的不完备数据集划分成多个模糊聚类,然后通过求解广义逆矩阵来获得各个子聚类的主成分,最终在局部主成分的基础上通过简单的线性方程模型去估计聚类中的遗漏值.实验表明,这种方法的优点是低内存需求,具有较小的平均绝对偏差值,并且显示出了比传统推荐算法更好的推荐质量.  相似文献   

19.
基于小波聚类的数据集简化算法研究   总被引:1,自引:0,他引:1  
大数据集没有非常有效的简化方法。提出一种基于小波聚类的数据预处理的算法DPWaveCluster,该算法包括量化特征空间、小波变换、聚类、形成查找表、映射数据点到聚类,以及按要求在聚类标识周围选取适当数据点形成简化数据集等操作步骤。利用小波变换的多分辨分析特性获得无监督聚类来帮助简化数据集。通过synthetic_dat和topo标准数据集的仿真实验表明,该算法实现简化大数据集高效而适用。  相似文献   

20.
针对传统的多模型建模方法在聚类过程中不考虑模型的输出误差而导致最终的模型存在较大误差的问题,提出了一种带监督的仿射传播聚类多模型建模方法.该方法先由仿射传播聚类算法得到初始聚类,然后,根据输出误差对聚类进行循环调整至各类别不再变化为止,最后,得到准确划分的聚类并采用最小二乘支持向量机建立子模型来实现对输出的估计,并将本文的建模方法应用到某双酚A反应釜出口丙酮含量的软测量建模中进行仿真.结果表明,该方法可以获得比传统的多模型建模方法更好的建模效果.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号