首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 0 毫秒
1.
快速搜索与发现密度峰值聚类(clustering by fast search and find of density peaks, DPC)算法对聚类中心点进行了全新的定义,能够得到更优的聚类结果。但该算法需要手动选取聚类中心,容易出现多选、漏选聚类中心的问题。提出一种自动选取聚类中心的密度峰值聚类算法。将参数积γ引入新算法以扩大聚类中心的选取范围,利用KL散度的差异性度量准则对聚类中心点和非聚类中心点进行清晰划分,以Dkl排序图中的拐点作为分界点实现了对聚类中心的自动选取。在人工以及UCI数据集上的实验表明,新算法能够在自动选取聚类中心的同时,获得更好的聚类效果。  相似文献   

2.
聚类是大数据时代对海量数据进行数据挖掘与分析的重要工具.本文基于密度峰值聚类算法提出了针对高维数据的聚类模型,以直接简单的形式实现六维度以上数据的任意形状聚类.该模型实现了自动预处理过程,以局部密度较大且距离其他局部密度较大点较远的点作为聚类中心,最后引入参数调整.实验结果表明,该模型不仅对低维数据聚类实用,在高维数据的聚类效果也非常显著.  相似文献   

3.
密度峰值聚类(clustering by fast search and find of density peaks, DPC)算法是一种基于密度的聚类算法,它可以发现任意形状和维度的类簇,是具有里程碑意义的聚类算法。然而,DPC算法的样本局部密度定义不适用于同时发现数据集的稠密簇和稀疏簇;此外,DPC算法的一步分配策略使得一旦有一个样本分配错误,将导致更多样本的错误分配,产生“多米诺骨牌效应”。针对这些问题,提出一种新的样本局部密度定义,采用局部标准差指数定义样本局部密度,克服DPC的密度定义缺陷;采用两步分配策略代替DPC的一步分配策略,克服DPC的“多米诺骨牌效应”,得到ESDTS-DPC算法。与DPC及其改进算法KNN-DPC、FKNN-DPC、DPC-CE和经典密度聚类算法DBSCAN的实验比较显示,提出的ESDTS-DPC算法具有更好的聚类准确性。  相似文献   

4.
针对网络异常流量检测技术准确率较低、簇的误划分等问题,提出基于改进密度峰值聚类算法的网络异常流量检测方案;首先对网络流量数据进行预处理和分组乱序,然后计算相应属性值并利用局部密度发现簇中心点,最后采用一种新的标签传递方式形成相应的簇群直至处理完所有数据。结果表明,相对于k均值算法和具有噪声的基于密度的聚类算法,基于改进的密度峰值聚类算法提升了网络异常流量的检测准确率,综合性能较优。  相似文献   

5.
密度峰值算法依赖于欧式距离实现局部密度的选择,该算法在处理高维数据、存在密度不均匀的类簇的数据集上效果不是很理想.针对以上问题,提出一种融合流形距离与标签传播的改进密度峰值聚类算法(improved density peak clustering combining manifold distance and labe...  相似文献   

6.
针对密度峰值聚类(DPC)算法在处理结构复杂、 维数较高以及同类中存在多个密度峰值的数据集时聚类性能不佳的问题, 提出一种基于K近邻和多类合并的密度峰值聚类(KM-DPC)算法. 首先利用定义的密度计算方法描述样本分布, 采用新的评价指标获取聚类中心; 然后结合K近邻思想设计迭代分配策略, 将剩余点准确归类; 最后给出一种局部类合并方法, 以防将包含多个密度峰值点的类分裂. 仿真实验结果表明, 该算法在22个不同数据集上的性能明显优于DPC算法.  相似文献   

7.
密度峰值聚类算法(DPC)具有准确率高、自动检测类别个数、识别中心点数目等优良性质.由于DPC算法用欧氏距离度量样本点之间的邻近关系,导致无法有效地提取高维复杂数据中的流形结构信息.针对密度峰值聚类算法的这个瑕疵,考虑到数据点之间的几何特性和流形结构,以测地距离替代欧氏距离,设计了一种改进的密度峰值聚类算法.数值模拟结果显示,改进的密度峰值聚类算法能够有效地处理具有流形分布特征的数据聚类问题.  相似文献   

8.
为了解决密度峰值聚类算法选择密度峰值点困难以及误分配的问题,基于流形的连通性,提出了一种改进的密度峰值聚类算法。通过使用三支密度峰值聚类算法,得到初始聚类结果与簇的边界点,根据这些边界点之间的连通性判断初始聚类之间的连接情况,并利用这些信息进行聚类结果融合。重复上述过程,每次迭代中在剩余数据里寻找密度峰值候选点,并将其纳入聚类过程,得到一种对流形数据友好的聚类算法。结果表明,所提算法在人工数据集和真实数据集上均有较好的表现,聚类准确度相较现有算法更高。基于连通性的三支密度峰值聚类算法可以在不计算路径距离的前提下,有效识别流形数据,大大降低了计算成本。  相似文献   

9.
宽角域合成孔径雷达(Wide-Angle Synthetic Aperture Radar, WA-SAR)有着更广泛的角度覆盖范围,基于此得到的宽角域散射中心(Wide-Angle Scattering Centers, WA-SCs)包含了目标物体更加丰富的电磁散射特征,这对雷达的目标建模、目标识别等有着重要的意义。为了克服WA-SCs数据维度高、所含信息复杂的特点,并从中提取出所需的目标物体特征,本文采取密度峰值聚类(Density Peak Clustering, DPC)算法研究WA-SCs。基于SLICY模型数据,从聚类内部评价指标、聚类可视化和算法自动化程度三个方面,将本文算法与经典的KMeans、DBSCAN和MeanShift算法进行了对比实验。结果表明,DPC算法具有自动化程度高、高维数据适应性强、聚类精度高等优点,有望为后续的一系列基于WA-SCs的目标建模、目标识别等工作提供技术支撑。  相似文献   

10.
基于自适应波段聚类PCA的高光谱图像压缩   总被引:1,自引:1,他引:0  
对高光谱图像进行有效压缩已经成为高光谱遥感领域的研究热点。针对现有高光谱图像压缩算法谱间特性利用不够充分的问题,提出了一种自适应波段聚类PCA(principal component analysis)与JPEG2000相结合的高光谱图像压缩算法。算法采用基于吸引力传播聚类的方法进行自适应波段聚类,对聚类后的各个波段组分别进行PCA运算,最后利用JPEG2000标准对所有主成分进行编码压缩。对高光谱图像进行波段聚类,不仅能更有效地利用谱间相关性,提高压缩性能;还可以降低PCA的运算量。实验结果表明,该算法在相同压缩比下,其信噪比、异常检测、光谱角性能相比对比算法均有所改善。  相似文献   

11.
【目的】为了在迭代自训练之前探索数据集分布情况,挑选出所含信息量较大且置信度较高的无标记样本加入训练集训练,让训练出的初始分类器有较高的准确性,提高自训练方法的泛化性。【方法】以聚类假设为基础,先对无标记样本集进行密度峰值聚类,在人工地选出聚类中心后,将新的聚类中心作为模糊聚类的初始聚类中心进行模糊聚类,从而筛选出有用的无标记样本。【结果】通过使用密度峰值优化模糊聚类算法,筛选出所含信息量大且置信度高的样本加入了训练集,训练出泛化性更强、分类精度更高的分类器。【结论】实验结果表明,改进后的自训练方法能快速发现样本集原始空间结构,筛选出有用无标记样本加入训练集,与结合其他聚类算法的自训练方法相比分类精度有所提高。  相似文献   

12.
在降低高光谱遥感影像数据的冗余度方面,波段选择一直是一种有效的方法.近年来,提出了许多用于高光谱波段选择的聚类算法,但大多数算法只有在选择足够多的聚类中心时才能够表现出良好的性能.在选择少量波段时,往往效果很不理想,不能满足实际使用的目的.而且,随着聚类中心数量的增加,大多数波段选择算法的精度存在不同程度的下降趋势.针对当前基于聚类的波段选择方法存在对聚类中心数的强敏感性和选择的特征波段子集高相关性的问题,提出了一种基于近邻子空间划分的波段选择方法(SEASP).该方法主要包括近邻子空间划分和特征波段选取两个步骤.考虑到高光谱波段之间的有序性,SEASP首先计算出相邻波段之间的相关系数,得到相关系数向量.若两个波段之间的相关性在某个区间内最小,即相关系数的变化率在该区间内最大,说明这两个波段在很大概率上不属于同一组,为两个相邻分组之间的分割点.因此,在相关系数向量的基础上,计算出其对应的若干个极小值,通过极小值的选取来确定最终划分的子空间.最后以信息熵为度量标准从划分的子空间中选出特征波段子集.在3个公开数据集的实验结果表明,提出的SEASP算法与其他算法相比,不仅原理简单,而且在精度...  相似文献   

13.
针对密度峰值聚类(DPC)算法存在的dc值难选择及近邻原则聚合操作在低密度区效果不佳的问题, 提出一种基于人工蜂群与CDbw聚类指标优化的密度峰值聚类(BeeDPC)算法, 以实现类簇间数据点的自动识别和合理聚类, 并解决DPC对类簇间数据点类别识别上存在的缺陷. 实验结果表明, BeeDPC算法具有自动识别并合理聚类类簇间数据点、 自动识别类簇中心点和类簇数量及自动处理任意分布数据集的优势.  相似文献   

14.
复杂网络是由个体或组织以及它们之间的关系所组成的结构.利用复杂网络的分形结构来解释和预测复杂网络的行为是目前的一个研究热点.分形维度是对复杂网络中分形结构的度量,为了更准确地对复杂网络分形结构进行度量,提出了一种基于密度峰值的方法来计算分形维度.该算法不同于之前选取一个种子节点或者将所有节点作为种子节点的方法,而是利用...  相似文献   

15.
密度峰值聚类算法(density peaks cluster,DPC)是一种基于密度的聚类算法,该算法可以聚类任意形状的类簇.在类簇间有密度差距的数据集上,DPC不能准确地选择聚类中心.DPC的非中心点分配策略会引起连续错误,影响算法的聚类效果.模糊k近邻密度峰值算法(fuzzy k-nearest neighbor DPC,FKNN-DPC)是一种改进的DPC算法,该算法采用边界点检测并结合2步分配策略来避免连续错误.当类簇间有密度差距时,FKNN-DPC的边界点检测效果不理想,此外,其非中心点分配策略缺乏对样本近邻信息的考虑.定义相对密度(relative density)并结合近邻关系(nearest neighbor relationship)提出RN-DPC算法解决上述问题.针对DPC因为类簇间的密度差距而不能准确选择聚类中心的问题,定义相对密度用于消除类簇间的密度差距.基于反向k近邻关系检测边界点并且引入共享最近邻关系来对FKNN-DPC的分配策略进行改进.RN-DPC算法在人工数据集和真实数据集上分别与不同的聚类算法进行了对比,实验结果验证了RN-DPC算法的有效性和合理性.  相似文献   

16.
针对基于粗糙熵的图像分割算法不能满足复杂图像的多类目标提取的需要,本文先利用K-均值聚类算法对图像进行区域分割,再利用基于粗糙熵的方法对分割结果进行目标提取,从而达到多阈值分割的目的。通过对遥感图像进行分割处理,证明了改进后算法的有效性。  相似文献   

17.
为了解决传统算法检测准确性低,复杂性高不适于电力大数据异常值检测的问题,通过密度峰值聚类算法研究了电力大数据异常值检测问题。分析了密度峰值聚类算法的聚类过程。按照聚类中心选择原则,通过相邻距离和密度的归一化乘积对聚类点的差异度进行衡量,按照差异度的统计特性与改变趋势选择最大的一组点当成聚类中心。按照z空间填充曲线与高维数据点z携带位置信息特性提出基于z的分布式密度峰值聚类算法,降低异常检测复杂性,以达到电力大数据异常值检测要求。采用优化后的密度峰值聚类算法对电力大数据异常值进行检测,在局部密度超过阈值,同时距离超过阈值的情况下,认为相应电力数据点为异常值。将基于距离的检测算法和基于密度的检测算法作为对比进行测试,结果表明:所提算法得到的异常电力数据点,和实际情况相符,和其他两种算法相比没有出现错检测和漏检测的情况。可见所提算法适于电力大数据异常值检测,且检测结果准确性高。  相似文献   

18.
一种基于密度的聚类算法实现   总被引:1,自引:0,他引:1  
基于密度的聚类算法OPTICS是一种大规模数据库的聚类算法,它是基于核心对象和可达距离来实现的.对于每一个核心对象将其邻域内的所有对象按到该核心对象的可达距离进行排序,每次都选择1个到该核心对象具有最小的可达距离的对象进行信息更新.算法实现采用优先队列保存候选对象以加快处理速度,最后用UCI数据集对算法进行聚类效果测试,结果表明OPTICS算法对数据集产生一个基于密度的簇排序结构.  相似文献   

19.
密度峰值聚类算法(Denisity peaks clustering,DPC)具有聚类速度快、实现简单、参数较少等优点,但该算法的截断距离参数需要人工干预,并且参数的选取对于该算法的结果影响较大。为了解决这一缺陷,该文提出了结合蝙蝠算法改进的密度峰值聚类算法。该算法利用蝙蝠算法较强的寻优能力,寻找合适的截断距离取值,同时对蝙蝠算法的速度更新公式加入了自适应惯性权重来加强全局搜索能力。该算法选择多种数据集进行了实验仿真,并与其他同类算法进行对比。经过对比验证,结合蝙蝠算法改进的密度峰值聚类算法在聚类准确率上要明显优于其他算法。  相似文献   

20.
密度峰值聚类算法(Density peaks clustering,DPC)是一种基于密度的新型聚类算法.该算法的优点十分显著:所需参数较少,没有迭代过程,能自适应获得聚类数目并识别任意形状的簇类.该算法也有一些问题亟待解决:(1)在决策图上人工选择聚类中心,产生聚类误差;(2)在密度不同的流形数据集上聚类效果不佳.针...  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号