首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 31 毫秒
1.
当前,基于核密度估计的空间犯罪热点分析方法存在着无法确定热点的分布范围和难以支持警务决策等不足.相比之下,数据挖掘中的层次聚类算法则能够根据犯罪活动的位置信息确定出不同空间尺度下的犯罪热点的分布范围和具体的热点数量,因此具有更好的优势.该文介绍了层次聚类算法的基本原理,并基于实际案例数据对层次聚类算法与核密度估计算法的热点分析结果进行了比较,并对基于层次聚类算法的犯罪热点分析在情报分析和警务决策方面的应用进行了讨论.  相似文献   

2.
针对传统K均值聚类算法对初始聚类中心敏感,易陷入局部最优和对大数据集聚类速度慢的缺点,将ARIA与Kmeans算法相结合,提出了一种ARIA-Kmeans算法,即基于自适应半径免疫的K均值聚类算法。首先利用自适应半径免疫算法对数据进行预处理,产生能够代表原始数据分布以及密度信息的内部镜像数据;然后用K均值聚类算法对其进行多次聚类,获得最佳聚类中心,并将其作为初始聚类中心,推广到全部数据优化聚类效果;最后对其结果进行评价。实验结果表明,相对于传统Kmeans算法,新算法在保证聚类准确度的前提下,提高了算法运行的时间效率和稳定性。  相似文献   

3.
传统Kmeans聚类算法的性能易受初始类簇中心随机性和类簇中心计算的迭代过程中边缘点和离群点反复计入的影响,为了避免这些影响,该文提出一种基于反向K近邻和密度峰值初始化的加权Kmeans聚类算法。通过样本的近邻信息计算每个样本的反向K近邻,针对不同规模、不同密度分布数据集,可以自适应地搜索密度峰值点作为初始类簇中心;自适应设定相对簇半径,并通过样本加权进行类簇中心迭代,在不同数据分布下可以有效降低边缘点和离群点对聚类结果的影响。试验结果证明,该算法在聚类性能提升的同时迭代次数大幅降低,随着入侵行为类型和数据规模的增加,该文聚类算法仍体现出较好的性能,且在发现未知攻击类型上效果显著。  相似文献   

4.
相对于其他的密度聚类算法,密度峰值聚类(Density Peaks Clustering,DPC)算法思想简洁新颖,所需参数少,不需要进行迭代求解,而且具有可扩展性.但是,DPC仍然具有一定缺陷,例如存在截断阈值dc的定义模糊以及选取中心点失效等问题.在阐述了DPC的算法思想和原理的基础上,分析了DPC算法的缺陷,然后从多个改进的角度对其相关研究工作进行了综述.通过分析DPC与相关理论(数据场、图论、粒计算等)的联系,针对密度峰值的缺点,提出了基于粒计算的DPC算法改进框架,其中包括由细到粗、由细到粗和双向变粒度这三种机制以及基于网格粒化的密度峰值算法框架.最后对DPC今后的研究工作进行了展望,包括动态密度峰值聚类、利用密度峰值研究网络拓扑、处理复杂任务以及改进其他聚类等,希望为DPC的进一步研究提供新思想.  相似文献   

5.
DPC算法是一种能够自动确定类簇数和类簇中心的新型密度聚类算法,但在样本分配策略上存在聚类质量不稳定的缺陷.其改进算法KNN-DPC虽然具有较好的聚类效果,但效率不高而影响实用.针对以上问题,文中提出了一种近邻密度分布优化的DPC算法.该算法在DPC算法搜索和发现样本的初始类簇中心的基础上,基于样本的密度分布采用两种样本类簇分配策略,依次将各样本分配到相应的类簇.理论分析和在经典人工数据集以及UCI真实数据集上的实验结果表明:文中提出的聚类算法能快速确定任意形状数据的类簇中心和有效地进行样本类簇分配;与DPC算法和KNN-DPC算法相比,文中算法在聚类效果与时间性能上有更好的平衡,聚类稳定性高,可适用于大规模数据集的自适应聚类分析.  相似文献   

6.
提出一种基于密度峰值发现的文本聚类算法,将文本的距离与密度计算转化为文本向量的相似度计算,实现基于密度峰值发现的文本聚类算法。该算法采用空间向量模型表示文本,用余弦公式进行相似度计算,然后求得每个文本的密度和距离。剔除噪音点后,选取聚类中心,将剩下的非中心点划分到距离其最近的聚类中心所在的类簇中去。通过多组对比试验,验证了本方法的可靠性和鲁棒性。  相似文献   

7.
密度峰值聚类(Clustering by Fast Search and Find of Density Peaks, DPC)算法是一种新型的基于密度的聚类算法,通过选取自身密度高且距离其他更高密度点较远的样本点作为聚类中心,再根据样本间的局部密度和距离进行聚类。一方面,虽然DPC算法参数唯一、简单、高效,但是其截断距离的取值是按经验策略设定,而截断距离值选取不当会导致局部密度和距离计算错误;另一方面,聚类中心的选取采用人机交互模式,对聚类结果的主观影响较大。针对DPC算法的这些缺陷,目前的改进方向主要有3个:改进截断距离的取值方式、改进局部密度和距离的计算方式以及改进聚类中心的选取方式。通过这3个方向的改进,使得DPC过程自适应。本文对DPC算法的自适应密度峰值聚类算法的研究现状进行比较分析,对进一步的工作进行展望并给出今后的研究方向:将DPC算法与智能算法有机结合实现算法自适应,对于算法处理高维数据集的性能也需要进一步探索。  相似文献   

8.
异常检测方法在电力领域有着广泛的应用,如设备故障检测和异常用电检测等.改进了传统Kmeans聚类随机选择初始聚类中心的策略;结合数据对象的密集度与最大近邻半径,选择更加接近实际簇中心的数据点作为初始聚类中心,并在此基础上提出了一种基于改进K-means算法的电力数据异常检测新方法.实验表明,上述算法具有更优的聚类效果和异常检测性能,并且在应用于电力领域时,算法可以有效地检测出异常电力数据.  相似文献   

9.
负荷聚类特性分析是实现配电网的定制电力、高品质供电、高可靠性供电的重要基础.然而现有的Kmeans聚类分析方法,受限于数据样本集和聚类初始中心的选取等,会出现因初始中心不同造成聚类结果差异大的问题.为此,针对配电网负荷数据特点,提出一种基于改进萤火虫算法和K-means算法结合的配电网负荷聚类特性分析方法.利用萤火虫优化算法全局搜索能力强的优势,考虑类内相似度和类间差异度,寻优K-means算法初始中心,使聚类结果的聚类有效性指标取得最小值;进一步针对萤火虫算法在处理负荷数据时的弱点,通过密度法为萤火虫算法加入优秀初代个体,改进吸引公式以及个体间概率吸引移动的方式优化迭代过程中的个体移动方式,加快萤火虫算法前期收敛速度,并实现后期稳定收敛,算法更快地接近极值,计算速度更快.算例验证了本文所提算法的聚类有效性,并针对某配电台区电力负荷数据,寻得K-means算法最优初始中心,使得聚类结果的戴维森堡丁指标(Davies-Bouldinindex,DBI)最小,负荷聚类结果类内差异小,类间差异大,最终聚类中心的特征代表性强,为负荷类型划分、聚类特性分析提供重要依据,为需求侧差异化电力服务定制...  相似文献   

10.
针对特征权重未知且具有直觉模糊数的特征信息的聚类分析问题,提出一种改进的基于直觉模糊集的模糊C均值聚类算法.首先,定义区域密度参数,选择高密度区域中相距最远的样本为初始聚类中心;然后,利用直觉模糊熵计算聚类样本的特征权重,对样本特征值进行加权处理.给出改进的FCM聚类算法的具体步骤,并进行了算例验证.研究结果表明,该算法不仅克服了FCM算法易陷入局部极小值的问题,同时大大减少迭代次数,加快了收敛速度,提高了聚类性能.  相似文献   

11.
在锂电池化成管理的智能配组过程中,当处理大规模数据或锂电池结构较复杂时,速度和准确度不高。因此,提出了一种基于遗传算法与密度加权的改进模糊C均值聚类算法。首先,由遗传算法优化得到初始聚类中心。然后,将样本对象的高斯密度函数作为其权值,并采用Xie-Beni有效性指标改进目标函数。将改进的算法通过标准测试数据集Iris和锂电池配组进行实验验证。验证结果表明:本文算法改善了聚类效果,与模糊C均值聚类算法相比,锂电池配组的正确率提高了0.8%,并且计算迭代次数从14次降低到8次。  相似文献   

12.
针对传统K-means算法的聚类结果依赖初始聚类中心的缺陷,提出了一种基于密度的改进K-means聚类算法,该算法选择位于数据集样本密集区且相距较远的数据对象作为初始聚类中心,实现K-means聚类。针对PAM算法时间复杂度高,且不利于大数据集处理的缺陷,提出了一种基于密度的改进K-medoids聚类算法,在选取初始中心点时根据数据集样本的分布特征选取,使得初始中心点位于不同类簇。UCI机器学习数据库数据集和随机生成的带有噪音点的人工模拟数据集的实验测试证明,基于密度的改进K-means算法和基于密度的改进Kmedoids算法都具有很好的聚类效果,运行时间短,收敛速度快,有抗噪性能。  相似文献   

13.
为了快速挖掘大规模空间数据的聚集特性,在cluster_dp密度聚类算法基础上,提出了一种基于弹性分布数据集的并行密度聚类方法 PClusterdp.首先,设计一种能平衡工作负载弹性分布数据集分区方法,根据数据在空间的分布情况,自动划分网格并分配数据,使得网格内数据量相对均衡,达到平衡运算节点负载的目的;接着,提出一种适用于并行计算的局部密度定义,并改进聚类中心的计算方式,解决了原始算法需要通过绘制决策图判断聚类中心对象的缺陷;最后,通过网格内及网格间聚簇合并等优化策略,实现了大规模空间数据的快速聚类处理.实验结果表明,借助Spark数据处理平台编程实现算法,本方法可以有效实现大规模空间数据的快速聚类,与传统的密度聚类方法相比具有较高的精确度与更好的系统处理性能.  相似文献   

14.
密度峰值聚类算法(density peaks cluster,DPC)是一种基于密度的聚类算法,该算法可以聚类任意形状的类簇.在类簇间有密度差距的数据集上,DPC不能准确地选择聚类中心.DPC的非中心点分配策略会引起连续错误,影响算法的聚类效果.模糊k近邻密度峰值算法(fuzzy k-nearest neighbor DPC,FKNN-DPC)是一种改进的DPC算法,该算法采用边界点检测并结合2步分配策略来避免连续错误.当类簇间有密度差距时,FKNN-DPC的边界点检测效果不理想,此外,其非中心点分配策略缺乏对样本近邻信息的考虑.定义相对密度(relative density)并结合近邻关系(nearest neighbor relationship)提出RN-DPC算法解决上述问题.针对DPC因为类簇间的密度差距而不能准确选择聚类中心的问题,定义相对密度用于消除类簇间的密度差距.基于反向k近邻关系检测边界点并且引入共享最近邻关系来对FKNN-DPC的分配策略进行改进.RN-DPC算法在人工数据集和真实数据集上分别与不同的聚类算法进行了对比,实验结果验证了RN-DPC算法的有效性和合理性.  相似文献   

15.
对基于群体聚类的约束多目标进化算法进行了改进,引入了聚集密度以度量群体中个体间的关系,保持种群的多样性。其基本思想为:首先将初始群体按多判据聚类方法分为适应度值不同的四类,然后计算类内群体中个体的聚集密度,根据适应度值和聚集密度定义一个偏序集,最后采用比例选择原则依次从偏序集中选择个体,更新精英集。通过数值实验用量化指标研究了改进算法的收敛性和分布性,结果表明:改进算法的收敛性与常规约束多目标进化算法相当,但分布性有了明显的提高。  相似文献   

16.
谱聚类是一种基于图谱划分理论的聚类算法,本质上是将聚类问题转化为图的最优划分问题;量子聚类可以充分挖掘数据样本的内在信息,是一种基于划分的无监督聚类算法.为了充分发挥谱聚类算法和量子聚类算法的优势,本文提出了一种基于流形距离核的谱聚类和量子聚类融合算法(MFD-NJW-QC).首先,计算数据集的流形距离核矩阵,构造相应的拉普拉斯矩阵;其次,根据拉普拉斯矩阵的若干最大特征值对应的特征向量构造新数据集,并使用量子聚类算法对新构造的数据集进行聚类,从而得到原始数据的类标签;最后,基于7个人工数据集和5个UCI数据集验证MFD-NJW-QC算法的聚类性能.结果显示,MFD-NJW-QC算法能够明显提高聚类性能,尤其对于具有流形结构,且类簇大小不平衡、密度分布不均匀的数据集优势更为突出.  相似文献   

17.
针对K-means算法需要人为确定聚类个数和随机选取初始聚类中心导致结果陷入局部最优的问题,结合基于密度峰值的聚类算法CFSFDP(Clustering by Fast Search and Find of Density Peaks),提出一种改进的无参数K-means算法。首先,计算样本点的局部密度和离散度。然后,建立决策图,将两个参数组成向量,计算每个点到周围5个点的距离,筛选出距离大于2倍均方差且密度大于平均密度的点作为算法的初始聚类中心,统计聚类中心个数k作为聚类个数,将初始聚类个数k以及初始聚类中心作为K-means算法的初始参数对数据进行聚类。最后,对UCI(University of California, Irvine)数据集、人工建立的高斯数据集以及真实刀具振动数据集3种不同类型的数据集进行聚类。结果表明,所提算法保持传统算法全局最优性,并验证了提出算法的有效性。由于K-means是一种无监督聚类方法,在获得较优刀具状态识别结果的同时,可减少人工数据标定、有监督训练等工作量及运算成本,这对于准确实时提取数控机床刀具运行状态具有较高的实际意义。  相似文献   

18.
聚类技术是数据挖掘中的一项重要技术,它能够根据数据自身的特点将集中的数据划分为簇.DBSCAN是一种经典的基于密度的聚类算法,能发现任意数量和形状的簇,但需设置Eps和MinPts参数,且聚类效果对参数敏感.提出一种改进的DBSCAN算法,该算法采用自适应的Eps参数使得DBSCAN算法能对具有不同密度的簇的数据集进行聚类.仿真实验结果验证了所提算法的有效性.  相似文献   

19.
基于改进Single-Pass算法的BBS热点话题发现   总被引:1,自引:0,他引:1  
详细介绍了经典增量式聚类算法Single-Pass的特点,针对该算法中"聚类质心不唯一"的缺陷提出"设定唯一聚类质心"的改进方案,降低了算法的时间复杂度;针对"算法聚类中心随机性强"的不足提出了"不断优化聚类中心"的改进方案,使得聚类中心的代表性更强.最后,基于"中华网BBS"文本数据对改进后的算法进行验证、分析,并与经典Single-Pass算法的聚类结果进行对比,得到了更为理想的实验结果,表明算法可行有效.  相似文献   

20.
县域农村物流配送中心选址优化模型及算法   总被引:1,自引:0,他引:1  
为解决县域农村物流配送中心合理选址问题,综合现实路网条件及未来物流需求等因素,以物流总费用最小化为目标函数,建立基于现实公路网的农村物流配送中心选址优化模型.通过对聚类中心和边缘点加以处理,改进了Kmeans聚类算法,并以此求解上述选址优化模型.实例分析表明,该模型和算法能很好地解决县域农村物流配送中心选址优化问题.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号