首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 109 毫秒
1.
针对密度峰值聚类(DPC)算法在处理结构复杂、 维数较高以及同类中存在多个密度峰值的数据集时聚类性能不佳的问题, 提出一种基于K近邻和多类合并的密度峰值聚类(KM-DPC)算法. 首先利用定义的密度计算方法描述样本分布, 采用新的评价指标获取聚类中心; 然后结合K近邻思想设计迭代分配策略, 将剩余点准确归类; 最后给出一种局部类合并方法, 以防将包含多个密度峰值点的类分裂. 仿真实验结果表明, 该算法在22个不同数据集上的性能明显优于DPC算法.  相似文献   

2.
密度峰值聚类(clustering by fast search and find of density peaks, DPC)算法是一种基于密度的聚类算法,它可以发现任意形状和维度的类簇,是具有里程碑意义的聚类算法。然而,DPC算法的样本局部密度定义不适用于同时发现数据集的稠密簇和稀疏簇;此外,DPC算法的一步分配策略使得一旦有一个样本分配错误,将导致更多样本的错误分配,产生“多米诺骨牌效应”。针对这些问题,提出一种新的样本局部密度定义,采用局部标准差指数定义样本局部密度,克服DPC的密度定义缺陷;采用两步分配策略代替DPC的一步分配策略,克服DPC的“多米诺骨牌效应”,得到ESDTS-DPC算法。与DPC及其改进算法KNN-DPC、FKNN-DPC、DPC-CE和经典密度聚类算法DBSCAN的实验比较显示,提出的ESDTS-DPC算法具有更好的聚类准确性。  相似文献   

3.
传统Kmeans聚类算法的性能易受初始类簇中心随机性和类簇中心计算的迭代过程中边缘点和离群点反复计入的影响,为了避免这些影响,该文提出一种基于反向K近邻和密度峰值初始化的加权Kmeans聚类算法。通过样本的近邻信息计算每个样本的反向K近邻,针对不同规模、不同密度分布数据集,可以自适应地搜索密度峰值点作为初始类簇中心;自适应设定相对簇半径,并通过样本加权进行类簇中心迭代,在不同数据分布下可以有效降低边缘点和离群点对聚类结果的影响。试验结果证明,该算法在聚类性能提升的同时迭代次数大幅降低,随着入侵行为类型和数据规模的增加,该文聚类算法仍体现出较好的性能,且在发现未知攻击类型上效果显著。  相似文献   

4.
基于密度的聚类算法因其抗噪声能力强和能发现任意形状的簇等优点,在聚类分析中被广泛采用。提出的基于相对密度的聚类算法,在继承上述优点的基础上,有效地解决了基于密度的聚类结果对参数值过于敏感、参数值难以设置以及高密度簇完全被相连的低密度簇所包含等问题。  相似文献   

5.
快速搜索与发现密度峰值聚类(clustering by fast search and find of density peaks, DPC)算法对聚类中心点进行了全新的定义,能够得到更优的聚类结果。但该算法需要手动选取聚类中心,容易出现多选、漏选聚类中心的问题。提出一种自动选取聚类中心的密度峰值聚类算法。将参数积γ引入新算法以扩大聚类中心的选取范围,利用KL散度的差异性度量准则对聚类中心点和非聚类中心点进行清晰划分,以Dkl排序图中的拐点作为分界点实现了对聚类中心的自动选取。在人工以及UCI数据集上的实验表明,新算法能够在自动选取聚类中心的同时,获得更好的聚类效果。  相似文献   

6.
密度峰值算法依赖于欧式距离实现局部密度的选择,该算法在处理高维数据、存在密度不均匀的类簇的数据集上效果不是很理想.针对以上问题,提出一种融合流形距离与标签传播的改进密度峰值聚类算法(improved density peak clustering combining manifold distance and labe...  相似文献   

7.
对密度峰值聚类算法进行有效改进,计算各样本点之间的距离和各样本点局部密度,选择两者中较大的样本点作为聚类中心点,根据其余样本点与各中心点的距离设定样本点所属类别;引入K近邻算法对密度峰值聚类算法进行优化,求解各样本点的距离时只需要考虑其周围由邻近值决定的若干样本点,实现距离阈值的自动选取;根据距离矩阵计算样本点的密度,绘制决策图并选择簇内中心点,将剩余点根据密度值分配给离中心点距离最近的类;最后将K近邻-密度峰值聚类算法部署至Hadoop云计算平台,用于解决大规模数据聚类的问题。仿真结果表明,通过合理设置K近邻算法的近邻值k,K近邻-密度峰值聚类算法具有较好的大数据样本聚类性能,与常用聚类算法相比,该算法具有更高的聚类准确率和聚类效率,适用于大数据样本聚类。  相似文献   

8.
DPC算法是一种能够自动确定类簇数和类簇中心的新型密度聚类算法,但在样本分配策略上存在聚类质量不稳定的缺陷.其改进算法KNN-DPC虽然具有较好的聚类效果,但效率不高而影响实用.针对以上问题,文中提出了一种近邻密度分布优化的DPC算法.该算法在DPC算法搜索和发现样本的初始类簇中心的基础上,基于样本的密度分布采用两种样本类簇分配策略,依次将各样本分配到相应的类簇.理论分析和在经典人工数据集以及UCI真实数据集上的实验结果表明:文中提出的聚类算法能快速确定任意形状数据的类簇中心和有效地进行样本类簇分配;与DPC算法和KNN-DPC算法相比,文中算法在聚类效果与时间性能上有更好的平衡,聚类稳定性高,可适用于大规模数据集的自适应聚类分析.  相似文献   

9.
密度峰值聚类算法(DPC)具有准确率高、自动检测类别个数、识别中心点数目等优良性质.由于DPC算法用欧氏距离度量样本点之间的邻近关系,导致无法有效地提取高维复杂数据中的流形结构信息.针对密度峰值聚类算法的这个瑕疵,考虑到数据点之间的几何特性和流形结构,以测地距离替代欧氏距离,设计了一种改进的密度峰值聚类算法.数值模拟结果显示,改进的密度峰值聚类算法能够有效地处理具有流形分布特征的数据聚类问题.  相似文献   

10.
密度峰值聚类算法(Denisity peaks clustering,DPC)具有聚类速度快、实现简单、参数较少等优点,但该算法的截断距离参数需要人工干预,并且参数的选取对于该算法的结果影响较大。为了解决这一缺陷,该文提出了结合蝙蝠算法改进的密度峰值聚类算法。该算法利用蝙蝠算法较强的寻优能力,寻找合适的截断距离取值,同时对蝙蝠算法的速度更新公式加入了自适应惯性权重来加强全局搜索能力。该算法选择多种数据集进行了实验仿真,并与其他同类算法进行对比。经过对比验证,结合蝙蝠算法改进的密度峰值聚类算法在聚类准确率上要明显优于其他算法。  相似文献   

11.
分析北京地区日降雨量资料,相较于其他降雨事件,大雨或暴雨事件发生的次数较少,因此该地区的降水量预报属于样本不均衡问题。在样本不平衡的情况下,K最近邻(PNN)算法的分类误差率将会大大提高,这也就使传统的基于K最近邻算法的降水量预报方法的应用受到了限制。针对北京地区降水量预报这一样本不均衡问题,应用伪最近邻算法构建了北京市的降水量预报模型。该方法利用北京地区日降雨量资料和美国国家环境预报中心全球格点资料,将降雨量作为类,将美国国家环境预报中心全球格点资料的各种因子场作为天气样本特征,通过决策规则实现最优分类。利用提出的降水预报模型对北京地区2010年6~8月进行了24 h降水预报,实验结果表明,提出的预报方法对于降水等级预报的预报准确率以及晴雨预报的TS评分、正样本概括率和漏报率均优于传统的K最近邻预报方法,该方法具有较好的预报效果。  相似文献   

12.
在ND(negatively dependent)样本下研究最近邻密度估计的强相合速度,利用ND序列的指数不等式以及ND序列的性质,给出了最近邻密度估计强相合速度的充分条件。  相似文献   

13.
现有的基于密度的数据流聚类算法难于发现密度不同的簇,难于区分由若干数据对象桥接的簇和离群点.本文提出了一种基于共享最近邻密度的演化数据流聚类算法.在此算法中,基于共享最近邻图定义了共享最近邻密度,结合数据对象被类似的最近邻对象包围的程度和被其周围对象需要的程度这两个环境因素,使聚类结果不受密度变化的影响.定义了数据对象的平均距离和簇密度,以识别离群点和簇间的桥接.设计了滑动窗口模型下数据流更新算法,维护共享最近邻图中簇的更新.理论分析和实验结果验证了算法的聚类效果和聚类质量.  相似文献   

14.
为了解决密度峰值聚类算法选择密度峰值点困难以及误分配的问题,基于流形的连通性,提出了一种改进的密度峰值聚类算法。通过使用三支密度峰值聚类算法,得到初始聚类结果与簇的边界点,根据这些边界点之间的连通性判断初始聚类之间的连接情况,并利用这些信息进行聚类结果融合。重复上述过程,每次迭代中在剩余数据里寻找密度峰值候选点,并将其纳入聚类过程,得到一种对流形数据友好的聚类算法。结果表明,所提算法在人工数据集和真实数据集上均有较好的表现,聚类准确度相较现有算法更高。基于连通性的三支密度峰值聚类算法可以在不计算路径距离的前提下,有效识别流形数据,大大降低了计算成本。  相似文献   

15.
针对标准粒子群算法存在容易早熟及陷入局部最优等缺陷,提出了一种基于维度近邻关系扩散的改进粒子群优化算法.改进后的算法初始化时借鉴k-means对空间中粒子的维度进行聚类,聚类的标准为每个维度之间的欧氏距离,算法中将聚类得到的每个起始类视为一个家庭.家庭内部和外部分别进行迭代更新,结合智能单粒子优化算法的思想将粒子的更新速度划分为对应的家庭速度子矢量.粒子间交换记录的扩散和传播借鉴在线社会网络传播模型,在采纳信息的过程中不仅会考虑信息的价值,也会考虑其周围粒子状况.结合禁忌搜索优化算法,通过将该算法中的建立禁忌表、设定禁忌搜索长度和特赦准则等策略来避免重复搜索和改进算法的全局搜索性能,提高解的精确性.实验结果表明,改进后的算法有效解决了算法收敛速度慢、求解精度低等问题.  相似文献   

16.
为了预报海洋赤潮等灾害的发生,需要监测海水中藻类的繁殖状况.通过建立针对海水中叶绿素a浓度状态的预测模型间接预测海水中藻类的繁殖生长状况.运用基于数据的模糊最近邻聚类学习算法对采样数据进行聚类处理,基于最优模糊逻辑系统建立了针对海水叶绿素a浓度状态的预测模型.根据采样数据的特点和降低模型阶次的实际需求,设计了改进的模糊...  相似文献   

17.
在样本为平衡的两两 NQD的情况下得到了非参数回归函数m(x) 的最近邻估计mn(x) 的相合性.得到弱相合的充分条件比在样本序列((xn,yn),n≥1)为平稳-混合情况下得到的mn(x)的弱相合性的充分条件弱.  相似文献   

18.
为了建立工业污水pH值中和系统的正模型,研究了具有大滞后非线性特性的加药中和过程.利用一种动态自适应最近邻聚类(DANNC)学习算法,全面调整网络参数完成了污水pH值加药中和控制系统网络的学习和训练.采用中和过程神经网络内模控制系统的逆模型充当控制器,进行了各种工业条件下污水中和的仿真实验.结果表明,该系统实现了△pH≤0.2的工业污水的控制精度目标,系统实时跟踪和抗干扰性良好.  相似文献   

19.
设X1,X2,…,Xn是同分布的两两NQD样本,具有相同的密度函数f(x),利用两两NQD序列的Bernstein型不等式,将负相关(NA)样本的最近邻密度估计的一致强相合速度推广到两两NQD样本,在更弱的条件下,获得了与NA样本情形下相同的结论.  相似文献   

20.
为了提高相似最近邻搜索(ANN)算法的精度,提出了一种在度量空间下基于距离的相似最近邻搜索算法-优化的VP森林(OVF)算法。在传统VP树(VT)算法的基础上,首先采用改进的选择优势点的方法,通过从数据集采样优势点候选集,对其进行评估,选取其中区分度大的点作为优势点;然后提出构建多棵VP树的新方法,改进距离优势点远的子树中最近邻不紧凑问题;接着提出使用优先队列与剪枝搜索方法结合的新搜索方法查找最近邻,减少了很多不必要的距离计算。最后通过实验结果表明,本文方法在数据维度、数据集大小、返回不同邻居个数、不同的距离函数及建树个数方面精度有了很大的提高。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号