首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 30 毫秒
1.
DBSCAN算法是一种基于密度的空间数据聚类方法, 聚类速度快, 且能够有效处理噪声点和发现任意形状的空间聚类.但是数据量大时要求较大的内存支持和IO消耗, 当空间聚类的密度不均匀,聚类间距离相差很大时, 聚类质量较差.本文在DBSCAN算法的基础上提出一个划分不同密度分别聚类的算法.测试结果表明可以改善聚类效果.  相似文献   

2.
利用测地线距离的改进谱聚类算法   总被引:1,自引:1,他引:0  
针对往复式压缩机故障数据空间分布复杂、常规算法不能有效聚类的问题,提出了一种改进的谱聚类算法.该算法使用新的相似度矩阵计算方式,根据故障数据流形分布的特点引入测地线距离取代欧氏距离作为数据间的关系度量;通过计算各数据点的邻域密度因子有效地识别和剔除了噪声点;利用基于密度的局部欧氏距离调整方法对流形间隙过小的区域进行了处理.在几个人工数据集和往复式压缩机故障数据集上的测试结果表明,改进谱聚类算法对于具有流形分布、多尺度、有噪声、流形间隙过小甚至交叉等特点的数据具有很好的聚类能力,聚类准确率比常规的k-均值和MSCA谱聚类算法分别提高了50.86%和8.6%.  相似文献   

3.
密度峰值算法依赖于欧式距离实现局部密度的选择,该算法在处理高维数据、存在密度不均匀的类簇的数据集上效果不是很理想.针对以上问题,提出一种融合流形距离与标签传播的改进密度峰值聚类算法(improved density peak clustering combining manifold distance and labe...  相似文献   

4.
一种确定最佳聚类数的新算法   总被引:1,自引:0,他引:1  
针对K-均值聚类算法需要事先确定聚类数K的问题,将粒度计算引入样本相似度函数,定义了新的样本相似度,用模糊等价聚类确定数据集可能的最大类簇数Kmax.以Kmax为搜索上界,利用改进全局K-均值聚类算法,以BWP(Between-Within Proportion)为聚类有效性度量指标,提出确定最佳聚类数的一种新方法.通过UCI机器学习数据库数据集以及随机生成的人工模拟数据集实验测试,证明该算法不仅能有效确定数据集的最佳聚类数,而且适用于大规模数据集,但是会受到噪音点影响.  相似文献   

5.
为了解决密度峰值聚类算法选择密度峰值点困难以及误分配的问题,基于流形的连通性,提出了一种改进的密度峰值聚类算法。通过使用三支密度峰值聚类算法,得到初始聚类结果与簇的边界点,根据这些边界点之间的连通性判断初始聚类之间的连接情况,并利用这些信息进行聚类结果融合。重复上述过程,每次迭代中在剩余数据里寻找密度峰值候选点,并将其纳入聚类过程,得到一种对流形数据友好的聚类算法。结果表明,所提算法在人工数据集和真实数据集上均有较好的表现,聚类准确度相较现有算法更高。基于连通性的三支密度峰值聚类算法可以在不计算路径距离的前提下,有效识别流形数据,大大降低了计算成本。  相似文献   

6.
一种基于密度的分布式聚类算法   总被引:1,自引:0,他引:1  
对基于密度的分布式聚类算法DBDC(density based distributed clustering)进行改进,提出了一种基于密度的分布式聚类算法DBDC*.该算法在局部筛选代表点时结合贝叶斯信息准则BIC,得到少量精准反映局部站点数据分布的BIC核心点,有效降低了分布式聚类过程中的数据通信量,全局聚类时综合考虑了各站点数据的分布情况.实验结果表明,算法DBDC*的效率优于DBDC,聚类效果好.  相似文献   

7.
快速搜索与发现密度峰值聚类(clustering by fast search and find of density peaks, DPC)算法对聚类中心点进行了全新的定义,能够得到更优的聚类结果。但该算法需要手动选取聚类中心,容易出现多选、漏选聚类中心的问题。提出一种自动选取聚类中心的密度峰值聚类算法。将参数积γ引入新算法以扩大聚类中心的选取范围,利用KL散度的差异性度量准则对聚类中心点和非聚类中心点进行清晰划分,以Dkl排序图中的拐点作为分界点实现了对聚类中心的自动选取。在人工以及UCI数据集上的实验表明,新算法能够在自动选取聚类中心的同时,获得更好的聚类效果。  相似文献   

8.
针对目前流聚类算法无法有效处理数据流离群点的检测和处理,以及增量式数据流聚类效率较低等问题,提出了一种基于密度度量的异常检测、删除的增强型仿射传播流聚类算法。在仿射传播流聚类算法的基础上,所提算法通过引进异常检测和删除机制改善了异常点对聚类精度、聚类效率的影响。利用仿射传播聚类实现在线数据流的聚类过程,同时检测数据漂移现象,即数据流分布特征随时间发生变化,并采用基于密度度量的局部异常因子检测技术(LOF)对储备池数据进行异常检测和删除处理,通过对当前类簇和处理过的储备池数据重聚类来重建动态数据流模型。在真实网络数据(KDD’99)上进行了实验,结果表明,所提算法不仅减少了重聚类构建动态模型的次数,改善了聚类效率,而且在同时考虑聚类精度、纯度和熵3种聚类评价标准下,均优于传统的仿射传播流聚类算法。  相似文献   

9.
一种基于层次树的高效密度聚类算法   总被引:2,自引:1,他引:1  
基于密度的聚类算法具有挖掘任意形状聚类和处理"噪声"数据等优势,同时也存在时间消耗大、参数问题局限及输入顺序敏感等缺陷.为此,文章提出一种基于层次树的密度聚类算法DCHT(Density Clustering Based on Hierarchical Tree),以层次树描述子聚类信息,动态调整密度参数,基于密度探测树结构中相邻子聚类得到最终的聚类簇.理论分析和实验结果表明,该算法适用于大规模、高维数据,并具有动态调整参数和屏蔽输入顺序敏感性的优点.  相似文献   

10.
适用于大规模文本处理的动态密度聚类算法   总被引:2,自引:0,他引:2  
针对传统的基于密度的聚类算法对海量数据处理时, 存在参数输入复杂及时间复杂度高的问题, 给出新的密度定义方法, 并在此基础上提出一种只需一个简单输入参数就能动态识别密度不均匀聚类簇的聚类算法, 同时将其扩充为可以处理海量数据的两阶段动态密度聚类算法。在人造数据集、大规模数据集以及中英文文本语料数据集上的实验表明, 所提出的算法具有输入参数简单和聚类效率高的特点, 可以应用于海量文本数据的聚类处理。  相似文献   

11.
聚类分析是重要的数据挖掘方法,在商务智能、地理信息系统、医学等方面有广泛的应用.随着聚类分析的蓬勃发展,涌现出了许多聚类算法,其中最重要的算法之一是基于密度的空间聚类以及其多种变种——基于密度连通链、基于加权密度、基于引力连通集合的算法.这些算法在概念上相似但没有统一的描述.本文针对基于密度的空间聚类及其变种提出了拓扑的概念.给出了聚类拓扑结构的定义,把簇定义为拓扑连通集合.此外,本文运用全新的拓扑思想改进典型的算法,提出了一种拓扑聚类的新算法.实例证明此算法有效.  相似文献   

12.
为了快速挖掘大规模空间数据的聚集特性,在cluster_dp密度聚类算法基础上,提出了一种基于弹性分布数据集的并行密度聚类方法 PClusterdp.首先,设计一种能平衡工作负载弹性分布数据集分区方法,根据数据在空间的分布情况,自动划分网格并分配数据,使得网格内数据量相对均衡,达到平衡运算节点负载的目的;接着,提出一种适用于并行计算的局部密度定义,并改进聚类中心的计算方式,解决了原始算法需要通过绘制决策图判断聚类中心对象的缺陷;最后,通过网格内及网格间聚簇合并等优化策略,实现了大规模空间数据的快速聚类处理.实验结果表明,借助Spark数据处理平台编程实现算法,本方法可以有效实现大规模空间数据的快速聚类,与传统的密度聚类方法相比具有较高的精确度与更好的系统处理性能.  相似文献   

13.
张选平  祝兴昌  马琮 《西安交通大学学报》2007,41(12):1387-1390,1395
针对基于密度的聚类算法由高密度区到低密度区的处理顺序所带来的不能识别低密度对象类别的缺陷,通过对聚类过程中可能存在的边界识别进行讨论,提出了一种基于边界识别的聚类算法.该算法的思想是:同簇优先权高于密度优先权,即在选择下一个对象进行聚类时,在已聚类的对象中优先选择同一簇的对象,当对象沿某一方向扩展到达簇边界时停止扩展,转而向其他方向扩展,这种处理顺序能使得类别最大化.通过分析簇边界的密度变化特征,建立了边界识别准则,并根据该准则对数据进行聚类.通过在合成数据和美国加州大学提供的知识挖掘数据库数据集上的实验结果表明,所提算法能有效地处理低密度区域的数据,与识别聚类结构的对象排序算法相比,聚类效果可提高4%左右,而时间性能相当.  相似文献   

14.
K-means初始聚类中心优化算法研究   总被引:1,自引:1,他引:1  
由于K-means算法对初始中心的依赖性而导致聚类结果可能陷入局部极小,而采用密度函数法的多中心 聚类并结合小类合并运算的聚类结果明显优于K-means的聚类结果。该算法的每一次迭代都是倾向于发现超球 面簇,尤其对于延伸状的不规则簇具有良好的聚类能力。  相似文献   

15.
针对密度峰值聚类(density peak clustering, DPC)算法不能根据数据集自适应选取聚类中心和截断距离dc,从而不能自适应聚类的问题,提出了一种自适应的密度峰值聚类(adaptive density peak clustering, ADPC)算法.首先,提出了一个综合考虑局部密度ρi和相对距离δi的参数μi,根据μi的排列顺序及下降趋势trend自动确定聚类中心.然后,基于基尼系数G对截断距离dc做了自适应选择.最后,对ADPC算法做出了实验验证,并与DPC算法和K-means算法进行了对比.实验结果表明,ADPC算法具有较高的ARI,NMI和AC值,具有较好的聚类效果.  相似文献   

16.
针对传统自组织聚类方法处理数据在多维空间中存在多样性和从基本或低层次概念上发现强关联规则中的不足,提出了一种基于自组织分级聚类的数据挖掘方法.该方法采用最大似然分类自组织特征网络(MAXNET)聚类过程,利用自下而上聚合层次聚类方法,对有畸变的二值化输入模式作最大似然分类.最后对一个销售电脑商场中,与任务相关的交易数据集进行了分析,描述了从低层次概念到高层次概念的相互关系.并用matlab仿真软件把该方法和传统方法进行比较,表明了该方法的有效性.  相似文献   

17.
为了提高数据流的聚类质量与效率,提出了一种基于密度的数据流聚类算法,该算法采用双层聚类框架,对于历史数据的遗忘问题采用了消逝策略和粒度调整策略,消逝策略能够处理噪声,节约内存;粒度调整策略检测当前的内存消耗,提高了聚类质量。基于标准数据集和仿真数据集的实验表明,此算法是可行有效的,适合处理和分析大规模的快速数据流。  相似文献   

18.
一种新的密度加权粗糙K-均值聚类算法   总被引:1,自引:0,他引:1  
为了克服粗糙K-均值聚类算法初始聚类中心点随机选取,以及样本密度函数定义所存在的缺陷,基于数据对象所在区域的样本点密集程度,定义了新的样本密度函数,选择相互距离最远的K个高密度样本点作为初始聚类中心,克服了现有粗糙K-均值聚类算法的初始中心随机选取的缺点,从而使得聚类结果更接近于全局最优解。同时在类均值计算中,对每个样本根据定义的密度赋以不同的权重,得到不受噪音点影响的更合理的质心。利用UCI机器学习数据库的6组数据集,以及随机生成的带有噪音点的人工模拟数据集进行测试,证明本文算法具有更好的聚类效果,而且对噪音数据有很强的抗干扰性能。  相似文献   

19.
在模糊C-均值聚类(FCM)目标函数的基础上按聚类中心分离原则增加一个聚类中心分离项来扩展FCM算法,提出基于聚类中心分离的模糊聚类模型(FCM_CCS)。该模型可使聚类过程中的聚类中心之间距离扩大,从而得到更好的聚类效果。由于该模型和FCM一样对噪声敏感我们提出它的可能性聚类模型(PCM_CCS),最后进一步扩展成它的可能性模糊聚类模型(PFCM_CCS)。基于聚类中心分离的可能性模糊聚类模型在处理噪声数据和克服一致性聚类问题方面表现出良好的性能。对数据集的测试实验结果表明了提出的PFCM_CCS能同时产生模糊隶属度和典型值,使聚类中心间距扩大,同时具有更好的聚类准确率。  相似文献   

20.
王超  李昊昱  陈含露 《科学技术与工程》2023,23(26):11445-11451
为了挖掘终端区进场航空器交通流的分布特征,量化分析空中交通的复杂性,提出了一种基于多特征轨迹相似度和密度峰值聚类(Density-peak Clustering, DPC)的中心航迹提取方法。首先,采用单向距离(One Way Distance, OWD)计算轨迹之间的形状和物理距离,并结合空管实际运行航迹数据特征,考虑航迹之间的位置属性和航向属性,定义多特征航迹相似度模型。其次,使用密度峰值聚类算法对航迹数据进行聚类分析,提取聚类结果中每一簇中具有最高密度的真实轨迹作为中心航迹。最后,对双流国际机场终端区历史航迹数据进行实验分析,使用轮廓系数指标和基于密度的指标进行评价,并与层次聚类算法进行对比。结果表明,轨迹被划分为8个不同形态的类簇,该方法可以直观有效的识别出轨迹的整体运动特征并精确提取出真实的中心航迹。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号