首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 31 毫秒
1.
针对传统K均值聚类算法对初始聚类中心敏感,易陷入局部最优和对大数据集聚类速度慢的缺点,将ARIA与Kmeans算法相结合,提出了一种ARIA-Kmeans算法,即基于自适应半径免疫的K均值聚类算法。首先利用自适应半径免疫算法对数据进行预处理,产生能够代表原始数据分布以及密度信息的内部镜像数据;然后用K均值聚类算法对其进行多次聚类,获得最佳聚类中心,并将其作为初始聚类中心,推广到全部数据优化聚类效果;最后对其结果进行评价。实验结果表明,相对于传统Kmeans算法,新算法在保证聚类准确度的前提下,提高了算法运行的时间效率和稳定性。  相似文献   

2.
一种改进的全局K-均值聚类算法   总被引:3,自引:0,他引:3  
将快速K中心点聚类算法确定初始中心点的思想应用于全局K-均值聚类算法,对其选取下一个簇的最佳初始中心的方法进行改进,提出选取下一个簇的最佳初始中心的一种新方法.该新方法选择一个周围样本分布相对密集,且距离现有簇的中心比较远的样本为下一个簇的最佳初始中心,得到一种改进的全局K-均值聚类算法.改进后的算法不仅可以避免将噪音点作为下一个簇的最佳初始中心点,而且在不影响聚类效果的基础上缩短了聚类时间.通过UCI机器学习数据库数据以及随机生成的人工模拟数据实验测试,证明改进的全局K-均值聚类算法与全局K-均值聚类算法及快速全局K-均值聚类算法相比在聚类时间上更优越.  相似文献   

3.
证明了满足 EX2<∞ 的具有非退化分布的母体 X 服从 Poisson 型分布 P (λ,α, 1)的充要条件是 T2- T1 关于 T1有常回归,其中 T1= X =1nni= 1Xi , T2=
1n- 1ni= 1( Xi-  X )2分别为子样均值和子样方差.  相似文献   

4.
一种新的密度加权粗糙K-均值聚类算法   总被引:1,自引:0,他引:1  
为了克服粗糙K-均值聚类算法初始聚类中心点随机选取,以及样本密度函数定义所存在的缺陷,基于数据对象所在区域的样本点密集程度,定义了新的样本密度函数,选择相互距离最远的K个高密度样本点作为初始聚类中心,克服了现有粗糙K-均值聚类算法的初始中心随机选取的缺点,从而使得聚类结果更接近于全局最优解。同时在类均值计算中,对每个样本根据定义的密度赋以不同的权重,得到不受噪音点影响的更合理的质心。利用UCI机器学习数据库的6组数据集,以及随机生成的带有噪音点的人工模拟数据集进行测试,证明本文算法具有更好的聚类效果,而且对噪音数据有很强的抗干扰性能。  相似文献   

5.
为研究高海拔高速公路隧道进口段驾驶人生理特征变化规律及主要影响因素,提高高海拔隧道进口段行车安全性,首先,按照刺激因素对驾驶人生理特征的影响程度将高海拔高速公路隧道进口段划分为L1、L2、L3,以心率表征驾驶人生理特征,并分别选取车辆距隧道口距离、隧道内照度作为驶入隧道前、后的影响因子;其次,通过实车等效试验,获取车辆位置信息、驾驶人在不同速度下的心率及隧道内照度数据;最后,运用数理统计对比分析了驾驶人在不同路段以不同车速行驶时心率指标的变化规律及差异性,并分别建立了不同车速下驾驶人心率与车辆距隧道口距离(L1+L2段)、心率与照度(L3段)间的回归模型,以探索外部因素对驾驶人生理特征变化的影响程度。结果表明,不同行驶阶段,驾驶人心率存在显著差异,且驾驶人在驶入隧道前400 m至驶入隧道后350 m心率变化最明显;进入隧道前、后,在考虑了初始车速、车辆距隧道口距离与初始车速、照度等因素后,所建立的回归模型为三次曲线模型,且拟合度均较高;不同初始车速下,驾驶...  相似文献   

6.
为了提高数据挖掘的聚类准确度,提出了一种基于菌群优化的K均值(K-means)聚类算法.采用K均值算法建立数据聚类模型.根据聚类类别数设定多个聚类中心坐标.设定所属类别距离阈值,然后计算待聚类点和所有中心点距离来划分该聚类点的类别.根据参与聚类各节点和各自中心点的距离值建立适应度函数.引入菌群优化算法对K均值聚类过程进...  相似文献   

7.
为快速有效地确定聚类中心,提出一种基于距离阈值的自适应K-均值聚类算法.首先确定合理的距离阈值,其次根据距离阈值确定初始聚类中心位置及个数,最后对位置相近的聚类中心簇进行合并,获得新的聚类中心位置及个数.结果表明,该方法可以自动确定k值及中心位置,有效避免将离群点错误聚类,从而改善了聚类效果.  相似文献   

8.
针对K-means聚类算法对初始聚类中心敏感问题,提出1种结合方差与误差平方和的优化算法.首先,该算法基于方差和距离选取k个位于不同区域且样本点相对集中的集合.然后,分别选取使这k个样本集合误差平方和最小的数据作为k个初始聚类中心.利用改进算法与其他算法将UCI数据库中所选取的数据集进行聚类划分,对比不同算法下的聚类结...  相似文献   

9.
基于快速全局模糊C均值聚类算法的脑瘤图像分割   总被引:1,自引:0,他引:1  
针对经典模糊C均值聚类算法对初始聚类中心过于敏感的缺陷,提出一种快速全局模糊C均值聚类算法.该算法采用分阶段动态递增的方式选取初始聚类中心,避免了随机化设置导致的聚类结果稳定性差问题.实验分析表明,改进后的模糊C均值聚类算法在脑瘤图像分割中的聚类效果较好,多个数据集的聚类准确率也表明,快速全局模糊C均值算法的聚类稳定性明显提升.  相似文献   

10.
传统Kmeans聚类算法的性能易受初始类簇中心随机性和类簇中心计算的迭代过程中边缘点和离群点反复计入的影响,为了避免这些影响,该文提出一种基于反向K近邻和密度峰值初始化的加权Kmeans聚类算法。通过样本的近邻信息计算每个样本的反向K近邻,针对不同规模、不同密度分布数据集,可以自适应地搜索密度峰值点作为初始类簇中心;自适应设定相对簇半径,并通过样本加权进行类簇中心迭代,在不同数据分布下可以有效降低边缘点和离群点对聚类结果的影响。试验结果证明,该算法在聚类性能提升的同时迭代次数大幅降低,随着入侵行为类型和数据规模的增加,该文聚类算法仍体现出较好的性能,且在发现未知攻击类型上效果显著。  相似文献   

11.
介绍了一种GNSS L1和L2信号及测距码失锁率统计计算方法,并考察了不同卫星高度角对失锁率计算结果的影响.利用全球GNSS观测数据,分析了第23太阳活动周发生的两次巨烈磁暴期间GNSS观测信号的质量.结果表明:巨烈磁暴发生期间GNSS L1和L2信号及P1和P2码失锁率较平静日均显著增加,信号失锁主要发生在磁暴主相及恢复相前期.L2失锁率明显高于L1且失锁持续时间更长,表明L2比L1更易受到磁暴影响.GNSS 信号失锁率与磁暴指数SYM-H的高相关性表明信号失锁率的异常增加由巨烈磁暴所驱动.研究成果可为我国北斗卫星导航系统全球信号质量评估提供方法支持.  相似文献   

12.
为构建行驶工况,消除K-均值算法对初始聚类中心的敏感性及噪声点的干扰,提出一种改进主成分分析和基于密度的改进K-均值聚类组合方法.结合距离优化法和密度法,构建一种数据集密度度量方法.选取距离较大、密度较高的数据点作为初始聚类中心与候选集,优化聚类结果的同时剔除了孤立点,采用较大贡献因子的特征值进行工况合成,最后对行驶工况油耗进行分析.结果表明,所提方法构建行驶工况的速度-加速度联合分布差异值为1.17%,特征参数平均相对误差较小.可见,合成的行驶工况能够很好地反映某地实际交通道路特征,拟合度较高.  相似文献   

13.
改进的k-均值算法在聚类分析中的应用   总被引:1,自引:0,他引:1  
介绍了在聚类中广泛应用的经典k-均值算法,并针对其易受随机选择初始聚类中心和孤立点的影响的不足,给出了改进的k-均值算法。首先使用距离法移除孤立点,然后采用邻近吸收法对初始聚类中心的选择进行了改进。并做了改进前后的对比实验和应用。结果表明,改进后的算法比较稳定、准确,受孤立点和随机选择初始聚类中心的影响也有所降低。  相似文献   

14.
针对K-means算法需要人为确定聚类个数和随机选取初始聚类中心导致结果陷入局部最优的问题,结合基于密度峰值的聚类算法CFSFDP(Clustering by Fast Search and Find of Density Peaks),提出一种改进的无参数K-means算法。首先,计算样本点的局部密度和离散度。然后,建立决策图,将两个参数组成向量,计算每个点到周围5个点的距离,筛选出距离大于2倍均方差且密度大于平均密度的点作为算法的初始聚类中心,统计聚类中心个数k作为聚类个数,将初始聚类个数k以及初始聚类中心作为K-means算法的初始参数对数据进行聚类。最后,对UCI(University of California, Irvine)数据集、人工建立的高斯数据集以及真实刀具振动数据集3种不同类型的数据集进行聚类。结果表明,所提算法保持传统算法全局最优性,并验证了提出算法的有效性。由于K-means是一种无监督聚类方法,在获得较优刀具状态识别结果的同时,可减少人工数据标定、有监督训练等工作量及运算成本,这对于准确实时提取数控机床刀具运行状态具有较高的实际意义。  相似文献   

15.
为构建行驶工况,消除K-均值算法对初始聚类中心的敏感性及噪声点的干扰,提出一种改进主成分分析和基于密度的改进K-均值聚类组合方法。结合距离优化法和密度法,构建一种数据集密度度量方法。选取距离较大、密度较高的数据点作为初始聚类中心与候选集,优化聚类结果的同时剔除了孤立点,采用较大贡献因子的特征值进行工况合成,最后对行驶工况油耗进行分析。结果表明,所提方法构建行驶工况的速度-加速度联合分布差异值为1.17%,特征参数平均相对误差较小。可见,合成的行驶工况能够很好地反映某地实际交通道路特征,拟合度较高。  相似文献   

16.
针对传统K均值算法需要提前指定聚类数目且易陷入局部最优的问题,提出了一种采用万有引力定律自动确定类数的K均值算法(Gravity K均值算法,GK均值算法)。所提算法利用正交设计方法在数据空间均匀投放若干探测器,探测器根据万有引力定律移动,当两个探测器的距离小于给定阈值时合并为一个,当探测器处于稳定状态时,探测器的个数就是聚类的数目。将得到的探测器作为K均值算法的初始中心点,有效地避免了K均值算法陷入局部最优。实验结果表明:相比传统K均值算法,本文提出的方法可以自动确定聚类数目,并给出较好的初始中心,算法的迭代次数至少减少了25%,聚类正确率平均提高了14%,DB(Davies and Bouldin)聚类评价指标平均降低了0.19。  相似文献   

17.
雷达信号分选是电子侦察中的关键步骤,针对传统聚类算法需要先验知识、算法需要人为设定参数、对孤立噪声点敏感和对初始聚类中心的选取对聚类效果有直接的影响、容易出现"增批"缺点,提出一种改进的数据场聚类算法。该算法计算所有的数据对象的势值,通过寻找势心来确定初始聚类中心和聚类数目,根据数据对象的势值大小和阈值进行比较,剔除孤立噪声点,将数据对象划分到距离最近的聚类中心的那一类中完成聚类。文中仿真了12部雷达信号,包括了常规雷达、抖动雷达、参差雷达和捷变频雷达,雷达参数相近或交叠。仿真结果表明,改进的数据场聚类算法有良好的聚类效果。  相似文献   

18.
针对现有K均值聚类(KMC)算法在选取初始聚类中心时随机性较大、全局搜索能力差、聚类精度低等问题,提出了一种引入改进飞蛾扑火的K均值交叉迭代聚类(IMFO-KMC)算法。利用最大最小距离积法初始化聚类中心,避免了KMC算法对随机初始聚类中心较为敏感的问题;利用样条插值预测的思想改进飞蛾扑火算法,提高了算法的收敛速度及寻优精度;以类内平均距离为适应度函数,引导插值扑火算法优化KMC迭代过程中的聚类中心,提高了聚类精度。将IMFOKMC与KMC、K-means++算法、模糊c均值聚类算法在国际标准数据集Iris、Wine和Seeds上进行了实验对比,结果表明:IMFO-KMC算法在Iris数据集上的性能提升最为明显,相比其他算法准确率提高了0.67%~4.18%,标准化互信息提高了1.5%~4.01%。  相似文献   

19.
S?V(G)是G的一个顶点集且|S|≥k,其中2≤k≤n.连接S的树T叫作斯坦纳树.两棵斯坦纳树T1和T2称为内部不交的,当且仅当它们满足E(T1)∩E(T2)=?和V(T1)∩V(T2)=S.令κG(S)是G内部不交的斯坦纳树的最大数目,κk(G)=min{κG(S)∶S?V(G),|S|=k}定义为G的广义k-连通度.很显然,当|S|=2时,广义2-连通度κ2(G)就是经典连通度κ(G).因此广义连通度是经典连通度的推广.主要讨论泡序图Bn的广义4-连通度κ4(Bn).得到的结论是当n≥3时,κ4(Bn)=n-2.  相似文献   

20.
作者针对传统k-means初始点的选择提出基于最小距离的优化算法。首先构造数据点集的带权无向图,更新数据点间的最小距离,然后利用最小距离获取数据点的密度函数,通过数据点的密度获取初始聚类中心,最后根据带权无向图中的路径长度获取邻近数据点形成初始聚类,对初始聚类内的数据点平均得到该类簇的聚类中心。实验结果表明,在相同的条件下所提算法在聚类效果上优于传统的k-means算法。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号