首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 843 毫秒
1.
目前多数多视角聚类算法属于"刚性"划分算法,不适用于处理具有聚簇重叠结构的数据集,为此,提出一种基于模糊C-means的多视角聚类算法(简称FCM-MVC),该算法利用隶属度描述对象与类别的关系,能够更真实地描述具有聚簇重叠结构数据集的聚类结果。FCM-MVC算法同时利用多个视角信息,自动计算每个视角的权重。研究结果表明:FCM-MVC算法能够有效处理具有聚簇重叠结构的数据集;与已有的3种经典的多视角聚类算法相比,该算法获得的聚类精度更高。  相似文献   

2.
一种鲁棒的子空间聚类算法   总被引:2,自引:1,他引:1  
针对聚类分析常面临的维数灾难和噪声污染问题,将样本加权思想与子空间聚类算法相结合,提出了一种鲁棒的子空间聚类算法.该算法结合现有子空间聚类方法,为每个类簇计算一个反映各维度聚类贡献程度的权矢量,并利用该权矢量对各维度加权组合,得到各类簇所处的子空间.此外,算法还为每个样本分配一个反映离群程度的尺度参数,以区分正常样本和离群点在聚类过程中的地位,保证算法的鲁棒性.在二维数据集、高维数据集以及基因数据集上的对比实验结果表明,对于具有不同噪声比例的各种维度数据集,该算法均能取得较高的聚类精度,表现出较好的鲁棒性.  相似文献   

3.
子空间聚类是一种将搜索局部化在相关维上进行的聚类算法,它能有效地克服数据因维度过高引起的在全空间上聚类的困难.针对高维分类型数据,本文提出了一种自底向上的子空间层次聚类算法,该算法在全局范围内建立一个最相似线性表用来记录每个簇类与其最相似的簇类的相似度,在聚类过程中,选取最相似的簇类合并,并通过维护此线性表产生最相似的簇类.此算法在基于信息熵的意义上能够较准确地搜索簇类的子空间.通过Zoo和Soybean两个典型的分类型数据实验发现,相对于其它相关聚类算法,该算法在聚类的准确率和稳定性方面表现出较高的优越性.  相似文献   

4.
互联网上提供的同一事实的信息通常会存在冲突,影响数据集成和知识发现.为了甄别真值,提出了一种基于距离的异构数据联合真值发现算法.首先,关于同一数据项,基于数据源声明值与真值的距离,计算数据项向量;采用KMeans聚类算法,获得数据项初始聚类.然后,迭代进行信任分析和聚类,即在每个类簇内,采用最优化思想,联合异构类型数据,更新事实的可信度和数据源的类簇内可靠性,重新计算每个数据项向量,再次聚类,迭代直至类簇达到稳定.实验结果表明:由于细粒度的数据源质量划分,联合考虑异构数据类型,可以获得更高的真值发现准确度.  相似文献   

5.
一种基于密度和网格的高效聚类算法   总被引:1,自引:0,他引:1  
聚类已成为数据挖掘的主要方法之一,能够帮助人们在大量的数据中发现隐藏信息.目前最具典型的密度聚类算法是DBSCAN(density-based spatial clustering of applications with noise),它能够在空间数据库中很好地发现任意形状的簇并有效地处理噪声,但是它的计算复杂度相对较大.因此,采用划分数据集和聚簇合并方法,提出了一种基于密度和网格的高效聚类算法DGCA,并通过人工合成数据集和真实数据集对该聚类算法进行理论验证.实验结果表明该算法在效率性能和质量方面比DBSCAN都得到了提高.  相似文献   

6.
传统Kmeans聚类算法的性能易受初始类簇中心随机性和类簇中心计算的迭代过程中边缘点和离群点反复计入的影响,为了避免这些影响,该文提出一种基于反向K近邻和密度峰值初始化的加权Kmeans聚类算法。通过样本的近邻信息计算每个样本的反向K近邻,针对不同规模、不同密度分布数据集,可以自适应地搜索密度峰值点作为初始类簇中心;自适应设定相对簇半径,并通过样本加权进行类簇中心迭代,在不同数据分布下可以有效降低边缘点和离群点对聚类结果的影响。试验结果证明,该算法在聚类性能提升的同时迭代次数大幅降低,随着入侵行为类型和数据规模的增加,该文聚类算法仍体现出较好的性能,且在发现未知攻击类型上效果显著。  相似文献   

7.
提出了一种基于簇特征的文本增量聚类算法:充分利用简单、有效的k-means算法来进行初始聚类,并保留聚类后每个簇的簇中心、均值、方差、文档数、3阶中心矩和4阶中心矩作为该簇的簇特征,当出现新增数据时,利用初始簇的簇特征对新增数据进行聚类.在20newsgroups数据集上的实验结果表明:相比于对整个数据集进行重新聚类,该算法具有一定的优势.  相似文献   

8.
基于势能的快速凝聚层次聚类算法使用一种全新的相似性度量准则,可以更高效地得到聚类结果。针对该算法无法有效处理含噪声的复杂流形数据的缺陷,提出噪声环境下复杂流形数据的势能层次聚类算法。通过势能递增曲线识别噪声点,在新定义的势能最大、最小2层数据上进行自动聚类,以确定类簇的大体框架,并在此基础上对整个数据集进行层次聚类。人工数据集上的实验表明,新算法可以有效处理噪声环境下复杂流形数据;真实数据集上的实验表明,新算法具有更优的聚类效果。  相似文献   

9.
针对传统K-means算法在初始质心选取的敏感性以及迭代计算的冗余性这两方面的缺陷,提出一种高效的聚类算法(ECA).根据数据对象的空间分布情况,首先采用空间划分预聚类算法(SDPCA)对数据集实现预聚类划分,然后采用基于邻近簇调整的优化聚类算法(OCANC)对预聚类成果进行优化处理,最终获取聚类成果.实验证明,该改进算法能消除对初始输入的敏感性,以更高的运行效率获取较高质量的聚类结果.  相似文献   

10.
针对分类数据,基于属性分组技术和多目标聚类质量函数,提出一种子空间聚类算法.该算法采用属性分组技术,将高相关属性划分到同属性组中,利用同组属性相关性度量属性权重值,构建属性软子空间;采用基于多目标的聚类质量函数,判断整体聚类效果,通过迭代优化簇集结构,达到最佳的数据划分状态.在人工合成数据集和UCI数据集上,实验验证了该算法的正确性、高效性和可靠性.  相似文献   

11.
聚类已成为数据挖掘的主要方法之一,能够帮助人们在大量的数据中发现隐藏信息。目前最具典型的密度聚类算法是DBSCAN(density-based spatial clustering of applications with noise),它能够在空间数据库中很好地发现任意形状的簇并有效地处理噪声,但是它的计算复杂度相对较大。因此,采用划分数据集和聚簇合并方法,提出了一种基于密度和网格的高效聚类算法DGCA,并通过人工合成数据集和真实数据集对该聚类算法进行理论验证。实验结果表明该算法在效率性能和质量方面比DBSCAN都得到了提高。  相似文献   

12.
孙悦  宋瑞  邱果 《山东科学》2019,32(1):102-112
针对基础的聚类算法无法适应定制商务班车站点设置的问题,在传统的基于密度的带有噪声的空间聚类算法基础上,通过衡量类簇精细化服务指标确定分组效果,并对聚类效果不理想的组别依据其数据特征自动更新以扫描半径和最小包含点数为代表的聚类参数,进行迭代聚类,直到聚类效果达标为止。同时,结合节点重要度的思想改进基于密度的带有噪声的空间聚类算法,使其能够输出备选站点。研究结果表明,改进的算法能够较好地根据数据特征给出应有分组,给出的扫描半径和最小包含点参数能够较好地适应分组情况,备选节点能够有效地匹配周围的交通资源。  相似文献   

13.
为了弥补K-Means算法对孤立点数据敏感的缺陷,提高K-Means算法对包含孤立点数据集的聚类效果,在深入研究K-Means算法的基础上,提出了基于PAM和簇阈值的改进K-Means聚类算法。该算法首先对待聚类数据进行抽样,然后利用PAM算法获取样本数据的聚类中心,以样本数据的聚类中心作为KMeans算法的初始聚类中心。在聚类迭代过程中动态计算各簇阈值,利用簇阈值准确地过滤孤立点数据。实验结果表明,本文提出的算法不仅聚类时间短,而且具有较高的聚类准确率。  相似文献   

14.
一种基于密度的引力聚类算法   总被引:1,自引:0,他引:1  
针对传统基于距离的聚类算法所存在的缺点,将万有引力和牛顿第二运动定律思想引入到聚类过程中,提出了一种改进的基于密度的引力聚类算法GCABD.该算法可以自动决定目标数据集中的簇的个数,并且能发现任意形状的簇且可以过滤"噪声"数据.实验结果表明,所提出的GCABD算法的聚类效果和精度均比典型的K-means算法好,提高了聚类质量.  相似文献   

15.
现有的优秀的聚类算法大多是处理低维数据的,但是对于高维数据,由于其分布特性与低维情形有很大的差异,这些算法失效.为解决高维分类型数据聚类问题,提出了一种基于粗糙集的高维分类型数据子空间聚类算法,基于粗糙集的上、下近似集的类边界描述,确定了类边界范围,然后采用相容度来调整类边界,聚类的过程采用增长子空间的思想,从低维到高维迭代地搜子空间类簇.最后通过在soybean、zoo数据集上的对比实验,实验结果表明了算法不仅可行,而且精度高.  相似文献   

16.
提出了一种新的聚类算法PMM,使用概率分析和密度直方图法确定密度阈值,应用多密度阈值对数据空间进行滤波以消除不相关数据的干扰,使用数学形态学理论发现聚类簇,提高了聚类的准确性,按照聚类的特点实现了相关形态学操作的快速算法,提高了运算效率.实验表明PMM的计算复杂度与数据量呈线性关系,能够发现任意形状的聚类簇,对噪声不敏感,并能区分密度不同的聚类簇.  相似文献   

17.
不同视角特征构成的数据比单视角特征具有更多的信息,充分利用多视角特征可以提高聚类效果.由于不同视角空间中的特征不具有可比性,基于线性表示理论的子空间学习方法通过学习表示矩阵挖掘互补信息.但现实数据多是非线性的,线性表示理论不利于发现数据的非线性关系.针对该问题,采用非线性投影及流形正则项来刻画多视角下的非线性数据,实验结果表明,所提方法能够对多视角数据进行有效聚类.  相似文献   

18.
针对全局K-means聚类算法和快速全局K-means聚类算法在选择下一簇的聚类中心点时,需要逐一计算数据集中每个点作为备选聚类中心点时的簇内平方误差函数,而数据集中存在很多不可能作为备选点的噪声点.为剔除噪声点,提出了一种基于高密度数的DGK-means算法,并通过UCI数据库中的4组数据集进行实验测试.验证了在聚类效果稳定的前提下,改进的DGK-means算法比全局K-means算法和快速全局K-means算法,聚类用时更短,聚类效率更高.  相似文献   

19.
通过分析无线Mesh网络节点空间属性,提出了一种改进的k-medoids网络节点聚类算法.该算法基于聚类思想,将无线Mesh网络中的网关部署问题转化为空间节点数据聚类问题.构建了网络拓扑图的邻接矩阵,并利用邻接矩阵选择具有最多一跳连接节点数的对象作为初始簇中心.然后以网络跳数代替传统聚类算法中的距离参数,将最小化跳数之和作为优化目标,通过迭代方法获得稳定的聚类和分组结果.实验结果表明,离散的网络节点在空间上具有聚类特性,利用该方法可以获得更小的平均跳数和最大跳数,因此可以较好地实现网络节点分组和网关发现.  相似文献   

20.
一种基于最大最小距离和SSE的自适应聚类算法   总被引:1,自引:0,他引:1  
K均值聚类是一种常用的聚类算法,需要指定初始中心和簇数,但随意指定初始中心可能导致聚类陷入局部最优解,且实际应用中簇数未必是已知的。针对K均值聚类的不足,文中提出了一个自适应聚类算法,该算法基于数据实例之间的最大最小距离选取初始聚类中心,基于误差平方和(SSE)选择相对最稀疏的簇分裂,并根据SSE变化趋势停止簇分裂从而自动确定簇数。实验结果表明,该算法可以在不增加迭代次数的情况下得到更准确的聚类结果,验证了所提聚类算法是有效的。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号