首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 500 毫秒
1.
离群数据挖掘是数据挖掘中的重要内容.本文针对时间序列数据进行离群数据挖掘方法的研究.在引入了基于局部离群点因子的离群数据挖掘方法与时间序列上滑动窗口基础上,将二者相结合,提出了基于滑动窗口的时间序列离群数据挖掘算法,并将算法应用于海表温度数据得到海表温度的异常之处.  相似文献   

2.
基于免疫粒子群的K均值聚类算法   总被引:2,自引:0,他引:2  
粒子群算法是一类高效求解连续函数优化的随机搜索算法,在K均值聚类算法中得到广泛应用,但是在群体进化后期容易陷入局部极值,针对算法缺点,提出了一个新的聚类算法--基于免疫过程的粒子群K均值聚类算法,并将此算法与K均值聚类算法和粒子群K均值聚类算法进行比较.理论分析和数据实验证明,该算法有较好的全局收敛性,不仅能有效的克服传统的K均值聚类陷入局部极小值的缺点,而且全局收敛能力优于基于粒子群的K均值聚类算法.  相似文献   

3.
经典的 K 均值聚类算法是基于欧式距离的,它只适用于球形结构的聚类,而且在处理数据时不考虑变量之间的相关性和各变量的重要性差异.针对以上问题改进了 K 均值聚类算法,将马氏距离与 K 均值相结合,并在目标函数中增加变量权重因子和协方差矩阵调节因子,利用马氏距离优点有效地解决了 K 均值聚类算法的缺陷,最后通过实验证实了该方法的可行性和有效性  相似文献   

4.
针对目前大部分离群点检测算法未考虑数据的局部信息, 导致离群点检测的准确率低问题, 提出一种新的基于聚类和局部信息的两阶段离群点检测算法. 通过定义新的局部离群因子作为判断数据对象是否为离群点的衡量标准, 改进了传统离群点检测算法的过程. 实验结果表明, 该算法在保持线性复杂度的同时, 能更准确、 有效地挖掘出数据集中的离群点.  相似文献   

5.
在动态增加的数据库环境下,异常数据挖掘中二次挖掘时需重新计算数据集中所有数据对象的局部离群因子的超高时间复杂度问题,在Ioc LOF算法中得到解决并取得良好效果.当向数据库中同时增加多条数据对象时,其算法时间效率下降很快.本文提出一种新的异常数据挖掘算法,先用改进型OPTICS算法进行聚类,然后调用Inc LOF算法仅对部分受影响的数据对象计算局部离群因子.通过实验结果表明,与传统的Inc LOF算法相比,本文提出的算法在动态增加的数据库实验环境下,不仅算法时间效率得到提高,在异常数据挖掘的精度方面也有一定的优化.  相似文献   

6.
为了提高数据挖掘的聚类准确度,提出了一种基于菌群优化的K均值(K-means)聚类算法.采用K均值算法建立数据聚类模型.根据聚类类别数设定多个聚类中心坐标.设定所属类别距离阈值,然后计算待聚类点和所有中心点距离来划分该聚类点的类别.根据参与聚类各节点和各自中心点的距离值建立适应度函数.引入菌群优化算法对K均值聚类过程进...  相似文献   

7.
基于K均值的带变异粒子群聚类算法   总被引:1,自引:0,他引:1  
针对K均值算法的搜索结果依赖于初始聚类中心以及粒子群算法早熟收敛的缺点,提出了一种基于K均值的带变异粒子群聚类算法.该算法通过粒子群算法来弥补K均值算法的不足,根据粒子的收敛情况判断K均值操作的时机,提高了搜索性能,并采用变异操作来跳出局部极值.分别用K均值算法、PSO-K均值算法和该算法对3种实际数据进行了聚类测试,...  相似文献   

8.
[目的]直接利用模糊C均值(FCM)对原始数据进行聚类,容易导致聚类结果受到噪声和离群点的影响,但通常利用松弛技术对样本点模糊隶属度或空间位置关系进行松弛的解决方法只能降低,而无法完全剔除噪声和离群点的影响.为了解决这个问题,提出了基于截断技术的鲁棒模糊C均值(TRFCM)聚类算法.[方法]基于模糊局部信息C均值(FLICM)聚类模型,通过引入截断技术,提出TRFCM算法.该算法的主要思路为:(1)利用FLICM,在学习数据聚类结构的同时保留样本点的局部邻域结构;(2)基于FLICM的聚类结果动态调整原始数据,使其满足期望的聚类结构;(3)将聚类结构特征学习与原始数据的调整(即截断掉部分样本点),统一在一个优化框架中,从而实现组合最优化.将TRFCM算法与近年来相关算法进行比较以检验TRFCM的参数敏感性、收敛性、鲁棒性、时效性等性能.[结果]实验包括5个部分:参数敏感性与收敛性分析、鲁棒性检验、图像分割实验、Benchmark数据集实验和各算法计算时间对比实验.在参数敏感性和收敛性分析中,TRFCM算法在合适的范围内对参数不敏感且在大多数情况下可以获得良好的聚类效果.同时,算法对各数...  相似文献   

9.
针对传统的基于密度的局部离群点检测算法对原始数据集没有进行预处理导致该算法在面对未知数据集时检测效果不理想,又由于其需要计算每一个数据点的离群因子,在数据量过多时,计算量大大增加的问题,通过对局部离群点检测算法的分析,提出了一种基于目标函数的局部离群点检测方法FOLOF(FCM objective function-based LOF).首先,使用肘部法则确定数据集的最佳聚类个数;然后,通过FCM的目标函数对数据集进行剪枝,得到离群点候选集;最后,利用加权局部离群因子检测算法计算候选集中每个点的离群程度.利用该方法在人工数据集和UCI数据集上进行了相关实验,并与其他相关方法进行了对比,结果显示,该算法能够提高离群点检测精度,减少计算量,有效提高离群点检测性能.  相似文献   

10.
针对对海量数据库中的大数据进行优化挖掘,可以提高数据特征的提取和检测能力.传统方法采用模糊C均值聚类的数据挖掘算法,当数据在层次聚类过程中空间特征的相似度差异性较小时,数据挖掘的准确度不高.提出一种基于粒子群混沌差分训练对模糊C均值聚类算法进行改进,建立数据挖掘优化模型.首先提出了数据聚类据挖掘模型的总体构架,采用非线性时间序列分析方法进行数据信息流拟合,对数据信息流进行高阶累积量特征提取,采用粒子群混沌差分训练实现模糊C均值聚类算法改进.以改进的模糊聚类算法对提取的高阶累积量特征进行聚类分析,以分析结果为依据对数据挖掘模型进行优化.仿真结果表明,该数据挖掘模型能有效实现海量数据的优化聚类和特征提取,数据挖掘的精度较高,性能较好,避免挖掘过程陷入局部收敛.  相似文献   

11.
目前,对于离群数据挖掘算法研究颇多,但对于离群数据挖掘结果可理解性和可解释性的研究相对较少。采用相关子空间,给出一种MapReduce编程模型下的上下文离群数据挖掘算法。该算法利用局部稀疏差异度,确定相关子空间,并计算其数据对象离群因子值;将离群因子和相关属性维,定义为数据对象的上下文信息,提高了数据对象的可理解性;选取离群因子最大的N个数据对象,作为上下文离群数据;利用MapReduce编程模型,实现了一种上下文离群数据并行挖掘算法;最后,采用UCI数据集,实验验证了该算法的可解释性和有效性。  相似文献   

12.
针对K均值聚类算法易陷入局部最小的缺点,提出了一种多种群协同进化的微粒群和K均值混合聚类算法,它将整个种群分解为多个子种群,各子种群独立进化,周期性地更新共享信息.同时将此算法与现有的基于遗传算法的K均值聚类算法进行了比较.实验结果证明,该算法能有效地克服传统的K均值算法易陷入局部极小值的缺点,同时全局收敛能力优于基于遗传算法的K均值聚类算法.  相似文献   

13.
滚动轴承的故障诊断对于确保机械设备的安全可靠性有着十分重大的意义。本文采用模式识别的方法,借助振动数据对滚动轴承进行故障诊断。为了改善K均值算法极易陷入局部最优解的情况,利用粒子群算法与K均值算法进行混合聚类,设计了一种基于自适应粒子群的K均值算法,它在惯性权重的调整和学习因子的设置等方面有别于传统的混合聚类算法。提取滚动轴承振动信号的28个时域和频域特征,采用主成分分析方法进行降维处理,再分别利用三种聚类算法对滚动轴承进行故障诊断。仿真表明,基于自适应粒子群的K均值算法能够增强K均值算法的寻优能力,可以改善传统混合聚类算法容易早熟、收敛速度较慢等缺点。  相似文献   

14.
在K均值算法中, 对于随机的初始值选取可能会导致不同的聚类结果,甚至存在着无解的情况;还有该算法是基于梯度下降的算法,因此不可避免地常常陷入局部极优.针对K均值聚类算法存在的缺点,提出了一种新的聚类算法--基于粒子群的K均值聚类算法,理论分析和实验表明该算法有较好的全局收敛性,能有效地克服传统的K均值算法易陷入局部极小值的缺点,采用改进后聚类算法对电信客户数据进行聚类分析,得到具有不同特征的客户群组,聚类结果分析更合理清晰,更便于对不同群组采取不同的经营策略,为管理者提供了合理的决策支持.  相似文献   

15.
针对传统K均值算法需要提前指定聚类数目且易陷入局部最优的问题,提出了一种采用万有引力定律自动确定类数的K均值算法(Gravity K均值算法,GK均值算法)。所提算法利用正交设计方法在数据空间均匀投放若干探测器,探测器根据万有引力定律移动,当两个探测器的距离小于给定阈值时合并为一个,当探测器处于稳定状态时,探测器的个数就是聚类的数目。将得到的探测器作为K均值算法的初始中心点,有效地避免了K均值算法陷入局部最优。实验结果表明:相比传统K均值算法,本文提出的方法可以自动确定聚类数目,并给出较好的初始中心,算法的迭代次数至少减少了25%,聚类正确率平均提高了14%,DB(Davies and Bouldin)聚类评价指标平均降低了0.19。  相似文献   

16.
数据挖掘可以从海量数据中发现模型和数据间的关系并做出预测。针对入侵检测系统的特点,将数据挖掘算法应用于入侵检测系统中,并着重研究了聚类算法中的K均值算法和一种改进的K均值算法。  相似文献   

17.
传统的K均值聚类算法是确定性的迭代算法,具有探索能力弱、容易陷入局部最优的缺点.在聚类中心的更新过程中加入系数因子线性递减的随机项,使改进的迭代算法在前期具有强的探索能力,而在后期保持良好的局部搜索能力,同时保持了传统K均值聚类算法结构简单的特点.实例说明,增加了随机项的K均值聚类算法具有良好的全局优化能力.  相似文献   

18.
K均值算法利用K个聚类的均值作为聚类中心,通过对比样本到各聚类中心的距离,将样本划分到距离最近的聚类中,从而实现样本的聚类.分析了K均值算法的基本原理和实现步骤,并将其应用于数据聚类和图像分割,取得了较好的聚类效果.最后,针对K均值算法的不足之处,提出了改进措施,提高了K均值算法的聚类性能.  相似文献   

19.
针对传统K均值聚类算法对初始聚类中心敏感,易陷入局部最优和对大数据集聚类速度慢的缺点,将ARIA与Kmeans算法相结合,提出了一种ARIA-Kmeans算法,即基于自适应半径免疫的K均值聚类算法。首先利用自适应半径免疫算法对数据进行预处理,产生能够代表原始数据分布以及密度信息的内部镜像数据;然后用K均值聚类算法对其进行多次聚类,获得最佳聚类中心,并将其作为初始聚类中心,推广到全部数据优化聚类效果;最后对其结果进行评价。实验结果表明,相对于传统Kmeans算法,新算法在保证聚类准确度的前提下,提高了算法运行的时间效率和稳定性。  相似文献   

20.
K-均值算法是一种传统的聚类分析方法,具有思想与算法简单的特点,因此成为聚类分析的常用方法之一。但K-均值算法的分类结果过分依赖于初始聚类中心的选择,对于某些初始值,该算法有可能收敛于一般次优解,在分析K-均值算法和粒子群算法的基础上,提出了一种基于邻域影响的改进的粒子群算法的聚类算法,通过对粒子群算法的改进来优化与K-均值结合的聚类算法。该算法将局部搜索能力强的K-均值算法和全局搜索能力强的粒子群算法结合,提高了K-均值算法的局部搜索能力、加快收敛速度,有效阻止了早熟现象的发生,达到那些离群的孤立点。实验表明该聚类算法有更好的收敛效果,一方面聚类所用的时间更短,另一方面聚类的准确率更高。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号