首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 140 毫秒
1.
针对K-means聚类算法依赖初始点、聚类结果受初始点的选取影响较大的缺陷,给出了一种稳定的基于影响空间的初始点优化K-means聚类算法。该算法借助了影响空间数据结构和定义的加权距离吸引因子,将特殊中心点合并为K个微簇,并对微簇中的数据点加权平均得到K个初始中心点,然后执行K-means算法;最后,理论分析和实验结果表明,该初始点优化K-means聚类算法能够有效降低噪声数据对聚类结果的影响,在聚类结果、聚类过程效率方面有较大优势。  相似文献   

2.
二支聚类要求聚类结果必须具有清晰的边界,即每个对象要么属于一个类,要么不属于一个类.然而在许多实际问题中,一个对象和类别可能会有三种关系:即确定属于、确定不属于和无法确定.为了克服二支聚类的这一问题,三支聚类使用核心域,边界域和琐碎域来表示每个类别,较好地处理了具有不确定性对象的聚类问题.给出一种基于样本稳定性的三支聚类算法.首先使用聚类集成的结果计算出每个数据的稳定性,然后基于阈值将这些数据元素分为两部分:核与环.对核中的数据采用硬聚类进行聚类,对环中的数据通过比较环中数据到聚类中心的距离将它们分到相应类的边界域中.通过以上策略,可以得到三支聚类的核心域和边界域.在UCI数据集上的实验结果显示,该方法能更好地显示出聚类的结构.  相似文献   

3.
针对当前三支聚类方法不能有效处理数值型数据,且三支聚类结果受阈值影响问题,文章基于邻域关系提出了确定合适阈值的三支聚类方法。首先给出了确定最优K值的改进K-means聚类算法。进而基于邻域关系下的下、上近似引入精度,提出了权衡边界域和精度关系的有效性评价指标。应用该指标,给出了确定邻域下、上近似中最佳阈值的构建算法,进而得到三支聚类的核心域和边界域。最后,通过UCI数据集上的实验验证了该方法的可行性,且该方法有效提高了聚类精度。  相似文献   

4.
K均值聚类是医学图像分割中最常用的方法之一,但K均值(K-means)聚类算法一个固有缺陷,在于若初始中心点的选取有重复的中心点,则聚类结果将含有空簇而使得聚类结果没有意义,进而影响图像分割效果。针对这一缺陷,首先提出在初始选点过程中进行聚类中心优化,避免产生重复的解决办法——初始点优化K均值算法(Initialization Optimized K-means,IOK-means),继而将初始选点数据域约束到图像直方图峰值集,进一步改善聚类效果,得到全局优化K均值聚类算法(Global Optimized K-means,GOK-means)。将GOK-means应用在脑部医学图像分割的实验表明:GOK-means能够将脑部灰质、白质及骨骼部分清晰地分割,与传统K均值算法IOKmeans相比,GOK-means的初始化聚类中心成功率达到100%,聚类总体均方差降低了54.9%,验证了GOK-means的有效性。  相似文献   

5.
一种新的密度加权粗糙K-均值聚类算法   总被引:1,自引:0,他引:1  
为了克服粗糙K-均值聚类算法初始聚类中心点随机选取,以及样本密度函数定义所存在的缺陷,基于数据对象所在区域的样本点密集程度,定义了新的样本密度函数,选择相互距离最远的K个高密度样本点作为初始聚类中心,克服了现有粗糙K-均值聚类算法的初始中心随机选取的缺点,从而使得聚类结果更接近于全局最优解。同时在类均值计算中,对每个样本根据定义的密度赋以不同的权重,得到不受噪音点影响的更合理的质心。利用UCI机器学习数据库的6组数据集,以及随机生成的带有噪音点的人工模拟数据集进行测试,证明本文算法具有更好的聚类效果,而且对噪音数据有很强的抗干扰性能。  相似文献   

6.
基于Spark平台的岩石图像聚类分析   总被引:1,自引:0,他引:1  
提出了一种基于概率选择的K-means聚类算法,并将其应用到Spark平台进行图像聚类,得到的数据集远小于初始数据集,大大降低了算法的迭代次数,聚类速度非常快。在Spark平台应用改进的K-means算法进行岩石图像处理,对岩石图像进行特征提取,使得岩石图像易于区分,解决了传统的聚类算法无法确定初始中心、聚类数目K的选取不当可能导致聚类失败、算法容易受到噪声和孤立点影响等问题。  相似文献   

7.
针对现有轨迹聚类算法中对轨迹之间的时空关联性考虑不足以及全局唯一距离阈值带来的算法的时空复杂度高以及聚类精度低的问题,提出了一种基于轨迹间时空关联性的数据聚类算法(The Data Clustering Algorithm Based on Spatio-temporal Correlation between Trajectories,DSCBT)。该方法主要包含两个阶段,在第一阶段中,首先根据最短停留时间限制和半径r确定初始中心代表点,然后将所在簇的最大距离作为该初始中心代表点对应的半径R,最后根据最短移动时间约束合并相邻的初始中心代表点并调整半径R,得到中心代表点集。第二阶段主要处理新增轨迹数据,首先将轨迹点与中心代表点集进行匹配,删除匹配成功的点产生新轨迹,然后对有聚类价值的新增轨迹执行第一阶段的操作,最后更新中心点集并完成聚类。实验结果表明,该算法能够有效降低算法的时间复杂度并提高聚类精度。  相似文献   

8.
已有的大多数聚类算法都假设数据集保持不变,然而,很多应用中数据集是会随时间变化的。为此,提出了一种新的三支决策软增量聚类算法。采用区间集的形式表示类簇,区间集的上界、边界与下界就对应着三支决策产生的正域、边界域和负域,并提出了一种基于代表点的初始聚类算法。采用同样的方式对新增数据集进行一次预聚类,以消除数据处理顺序对最终聚类结果产生的影响。为了快速查找新增数据的相似区域,建立了代表点搜索树,并且给出了查找和更新搜索树的策略。运用三支决策策略完成增量聚类。实验结果表明提出的增量聚类算法是有效的。  相似文献   

9.
K—means聚类算法的研究   总被引:5,自引:0,他引:5  
为解决原始K-means算法随机选取初始聚类中心对聚类结果的影响较大的不足,提出了改进算法.采取基于采样选取聚类中心距离的规则,进行多次选择决定最终的初始聚类中心,使得改进后的算法受初始聚类中心选择的影响达到最小;同时,在选取初始聚类中心后,对初值进行数据标准化处理.将改进的K-means算法应用于销售行业,结果显示,改进后的算法比原始的算法在效率上得到了提高.  相似文献   

10.
本文针对传统FCM(模糊C均值)聚类算法对初始中心值非常敏感,并且对数据集属性要求过高的缺陷,提出了采用信息熵的方法对聚类中心进行初始化,以此来降低算法对初始聚类中心的依赖.同时为了使算法能够对任意形状的簇进行聚类,本文引用了类合并的思想,将任意形状的簇分割成小类,再通过一定的规则将小类对进行合并.实验结果证实了在FCM基础上改进的模糊聚类新算法能够识别任意形状的簇,并大大降低了FCM算法对初始聚类中心的依赖.  相似文献   

11.
朱晓姝  蒙霜  龙法宁 《广西科学》2023,30(4):764-775
单细胞转录组测序(single-cell RNA-sequencing, scRNA-seq)数据具有高稀疏性、高噪声、高维度、结构信息和位置信息缺乏等特点,且数据规模迅速增大,使得单细胞聚类面临较大的挑战。为便于对不同的scRNA-seq数据选择合适的分析方法,本研究对scRNA-seq数据的质量控制、基因选择和聚类等方法进行比较分析。首先,分析质量控制中过滤和归一化的方法及其阈值设置;然后,从模型因子、测序技术、方法局限性和优势等方面,对6种典型的基因选择方法进行比较;最后,详细阐述6种典型的单细胞聚类方法,并分析其适用的数据规模和优缺点。收集14个带有真实标签的金标准scRNA-seq数据集,包括5个全长测序数据集和9个双端测序数据集,其中5个数据集包含的细胞数大于3 000个,对6种典型的基因选择方法和6种单细胞聚类方法进行实验比较,分析它们在识别高差异基因时和在聚类性能上的差异。结果发现,不同的基因选择方法在Adam和Wang_Lung数据集分别可以检测到182个和124个共有基因,以及一些独有基因。此外,Seurat、SC3、Monocle 3和scDeepCluster的...  相似文献   

12.
Feature selection methods have been successfully applied to text categorization but seldom applied to text clustering due to the unavailability of class label information. In this paper, a new feature selection method for text clustering based on expectation maximization and cluster validity is proposed. It uses supervised feature selection method on the intermediate clustering result which is generated during iterative clustering to do feature selection for text clustering; meanwhile, the Davies-Bouldin's index is used to evaluate the intermediate feature subsets indirectly. Then feature subsets are selected according to the curve of the Davies-Bouldin's index. Experiment is carried out on several popular datasets and the results show the advantages of the proposed method.  相似文献   

13.
针对基于流形正则化自表示(MRSR)的无监督特征选择算法直接从原始的样本空间构造相似矩阵可能会 导致重构空间中样本的相似性描述得不够准确的问题,提出了基于自适应流形正则化自表示的无监督特征选择 (AMRSR)算法。 基于自适应流形正则化自表示的无监督特征选择算法在 MRSR 算法的基础上通过对相似矩阵施 加概率最近邻约束将相似矩阵的学习嵌入到优化过程中,在重构空间中自适应地学习样本的相似性,使得在每一 次迭代中获取更加精确的样本局部几何流形结构,从而选择具有代表性且保持局部几何流形结构的特征。 最后, 在四个公开数据集上进行了大量的对比实验,通过将算法的特征选择结果用于 K-means 聚类并采取两种常见的聚 类评价指标:聚类精确度和归一化互信息评价聚类效果。 实验结果表明,AMRSR 算法与现有的一些算法相比有更 高的聚类精确度和归一化互信息,进一步表明该算法特征选择效果更好。  相似文献   

14.
Airborne light detection and ranging (LIDAR) has revolutionized conventional methods for digital terrain models (DTMs) acquisition.Ground filtering for airborne LIDAR is one of the core steps taken to obtain a high quality DTM.This paper presents a segments-based progressive TIN (triangulated irregular network) densification (SPTD) filter that can automatically separate ground points from non-ground points.The SPTD method is composed of two key steps:point cloud segmentation and clustering by iterative judgement.The clustering method uses the dual distance to obtain a set of seed points as a coarse spatial clustering process.Then the rest of the valid point clouds are classified iteratively.Finally,the datasets provided by ISPRS are utilized to test the filtering performance.In comparison with the commercial software TerraSolid,the experimental results show that the SPTD method in this paper can avoid single threshold restrictions.The expected accuracy of ground point determination is capable of producing reliable DTMs in the discontinuous areas.  相似文献   

15.
采用当前方法进行光纤网络流量异常监测过程中,特征选择法无法全面描述流量异常特征监测的不足,存在监测效果较差的问题。为此,提出一种基于改进特征选择法的异常流量监测方法。首先采用分光方式对光纤网络流量进行分析,获取光纤网络流量时间序列,并描述用于流量异常监测的多时间序列之间的相互关系,然后利用改进特征选择法对网络出口流量进行特征提取。利用聚类算法选择网络流量异常最优类数和聚类中心,来对网络流量异常现象进行过滤,从而实现网络异常流量特征抽取、特征选择改进算法和网络流量异常监测的研发,从而提高光纤网络流量异常现象监测的准确度。仿真实验结果证明,通过这种方法,能有效地对网络流量异常现象进行监测,且算法简单,能够满足网络流量异常监测的应用需求,实用价值较高。  相似文献   

16.
Immunodominance and clonal selection inspired multiobjective clustering   总被引:1,自引:0,他引:1  
The biological immune system is a highly parallel and distributed adaptive system. The information processing abilities of the immune system provide important insights into the field of computation. Based on immunodominance in the biological immune system and the clonal selection mechanism, a novel data mining method, Immune Dominance Clonal Multiobjective Clustering algorithm (IDCMC), is presented. The algorithm divides an individual population into three sub-populations according to three different measurements, and adopts different evolution and selection strategies for each sub-population. The update of each sub-population, however, is not carried out in isolation. The periodic combination operation of the analysis of the three sub-populations represents considerable advantages in its global search ability. The clustering task is a multiobjective optimization problem, which is more robust with respect to the variety of cluster structures of different datasets than a single-objective clustering algorithm. In addition, the new algorithm can determine the number of clusters automatically, which should identify the most promising clustering solutions in the candidate set. The experimental results, using artificial datasets with different manifold structure and handwritten digit datasets, show that the IDCMC outperforms the PESAII-based clustering method, the genetic algorithm-based clustering technique and the original K-Means algorithm in solving most of the problems tested.  相似文献   

17.
详细分析和阐述了时态网络中的链路预测问题,将时态网络按时间顺序划分为具有相同时间间隔的多层网络快照序列.针对基于共同邻居的相似性指标对网络链路刻画粒度较粗糙的问题,提出了基于邻居节点聚类系数的相似性度量指标NCC和NCCP,并基于此提出时态网络链路预测算法.通过在真实数据集上的对比实验验证了利用邻居节点的聚类信息可以提高预测精度.利用真实邮件数据集验证了所提出的链路预测算法预测效果的优越性,并且实验结果证明越接近预测时间的网络结构对预测结果影响越大.  相似文献   

18.
介绍了复杂网络及社团结构的相关概念,给出节点的综合特征值和增益函数的定义,然后提出一种新的社团发现算法(CNCD).综合特征值与节点的度数及其聚类系数有关,用于发现社团中的核心节点;增益函数决定何时获得社团结构的最佳划分.作者用C++语言实现算法,并使用经典数据集对算法进行验证,实验结果表明此算法不仅能够得到正确的社团结构,而且通过动态调整算法中的参数值,能够得到比传统算法更加详细的社团划分结果,获得网络的细节信息.  相似文献   

19.
在自动驾驶,医疗等领域,模型的泛化性是衡量其安全性的重要指标。领域泛化算法选择方法可以指导使用者快速准确地选出适合的模型训练算法。针对目前尚缺乏有效的算法选择方法的问题,提出一种基于对比学习的领域泛化算法选择方法,称为特征对比 (feature contrast, FeCo)。首先依据正例和负例选择策略选择特征,采用点积的方式计算特征相似度,最后通过噪声对比估计 (info noise contrastive estimation, InfoNCE)计算得分。该得分评估了同一类特征的聚合程度和不同类特征的分离程度。在3个数据集共200个领域泛化模型上进行验证。实验结果表明,在所有的方法中FeCo是唯一结果稳定的方法,FeCo的结果和模型真实泛化误差的相关性最高可达0.89,且运行时间缩短超过60倍。  相似文献   

20.
密度峰值算法依赖于欧式距离实现局部密度的选择,该算法在处理高维数据、存在密度不均匀的类簇的数据集上效果不是很理想。针对以上问题,提出一种融合流形距离与标签传播的改进密度峰值聚类算法(Improved Density Peak Clustering Combining Manifold Distance and Label Propagation,简称DPC-ML)。DPC-ML使用流形距离进行距离度量并形成流形距离矩阵,同时定义了一种局部密度,将流形距离与局部密度融合,让局部密度反映出一定的局部距离信息。实验数据表明该算法在处理不同形状,密度不均匀的类簇上有着良好的性能。而且通过绘制决策图发现在不同的人工数据集上的实验显示DPC-ML算法重新定义的局部密度对于类簇中心点的选择区分度更高。由于引入了新的参数邻近点数,故也探究了邻近点数对聚类结果的影响,发现在聚类指标在刚成为连通图时效果最好,进一步证明了流形距离可以对聚类结果性能有所提高。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号