首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 953 毫秒
1.
以黑龙江省中部地区2004年的气温和降水观测数据为实例,对数据挖掘中气象数据的概化问题进行研究.调查分析了概化方法和数据特征,确定采用模糊C均值聚类算法.重点研究了算法中最佳聚类数的确定,选取多种广泛认可的指标,对聚类结果进行有效性对比分析,采用综合最优的聚类数为最佳聚类数.研究发现这种方法聚类结果合理且具有较强的可拓展性.  相似文献   

2.
确定“最佳聚类数”一直是聚类算法面临的一个难题。为了确定一族合理的聚类数而不是单个聚类数,提出了一种基于谱分析的算法,并能处理较为复杂的数据集。该算法构建了数据点之间的相似度图,在不同的分析粒度下,用图上的“随机游走”来传播相似度,采用了一个新的评判标准,“广义特征差”来寻找聚类数族。实验结果表明该算法在聚类数不唯一的情况下能够有效地确定聚类数,并且和其他几种算法相比具有较优的计算复杂度。  相似文献   

3.
模糊c-均值聚类算法(fuzzy C-means 简称FCM)和层次聚类算法是两种非常重要的聚类算法.由于FCM算法对初始聚类中心敏感,并且需要人为确定聚类类别数,这样收敛结果易陷入局部最优解.通过对这两种聚类算法的分析,首先对传统的凝聚层次聚类算法提出了改进,然后用改进的凝聚层次聚类算法得到最佳聚类数和初始聚类中心,最后用FCM算法进行再次聚类,以此得到更好的聚类结果并且减少了执行时间和迭代次数.  相似文献   

4.
程慈  柴瑞敏 《科技信息》2008,(14):143-143
对聚类分析中聚类数的确定问题进行了研究。在SOFM神经网络的基础上,从聚类准则出发,通过试验对聚类准则的曲线特征进行了详细的分析和论证,设计出一种结构自适应的聚类神经网络,该网络能自动确定最佳的聚类数,并提出了一种减少计算量的改进算法。  相似文献   

5.
目的探索同时确定K-means算法的最佳聚类数K和最佳初始聚类中心的方法,使K-means算法的聚类结果尽可能地收敛于全局最优解或近似全局最优解。方法以次胜者受罚竞争学习(Rival Penalized Competitive Learning,RPCL)作为K-means的预处理步骤,以其学习结果作为K-means的聚类数和初始聚类中心并依据数据集样本自然分布定义样本密度,将此密度引入RPCL的节点权值调整,以此密度RPCL的输出作为K-means的最佳聚类数K和最佳初始聚类中心。采用UCI机器学习数据库数据集以及随机生成的带有噪音点的人工模拟数据集进行实验测试,并用不同的聚类结果评价指标对聚类结果作了分析。结果提出的密度RPCL为K-means提供了最佳的类簇数和最佳的初始聚类中心。结论基于密度RPCL的K-means算法具有很好的聚类效果,对噪音数据有很强的抗干扰性能。  相似文献   

6.
基于模糊迭代聚类的水资源分区研究   总被引:3,自引:1,他引:3  
给出一种模糊聚类循环迭代模型以及确定最佳聚类数的方法,采用交叉循环迭代的方法确定聚类中心,通过判断聚类准则函数获得最佳聚类数。最后将模糊聚类循环迭代模型应用到对我国 29 个省、市、自治区的水资源分区的研究中,将水资源按照 4 个指标分为 5 个类别,结果表明,模糊循环迭代聚类模型得出的分区结果比较合理。  相似文献   

7.
针对密度聚类算法对邻域参数设置敏感的问题,提出一种基于密度的模糊自适应聚类算法.算法在无需预先设置聚类数以及邻域参数的情况下,可以自适应地根据样本间距离关系确定邻域半径得到样本密度,并根据样本密度逐渐增加聚类中心.为了保障聚类结果的正确性,同时提出一种新的模糊聚类有效性指标以判断最佳聚类数,消除了密度聚类算法对参数的敏感性.用UCI基准数据集进行实验,发现本文算法在对数据进行聚类时,聚类质量较原始密度聚类算法在准确性和自适应性方面均有显著提高.  相似文献   

8.
基于最优聚类原理的电网无功电压分区算法   总被引:3,自引:0,他引:3  
根据聚类的定义构造了多维空间的样本集,计算发电机节点对负荷节点的控制灵敏度和各负荷节点间的欧氏距离,利用聚类分析中的最短距离法对电力系统进行分区.在确定了有效分区数的取值范围后,用熵的香农函数和Sugeno-Yasukaw准则确定最佳分区数与分区有效性,并对IEEE39节点系统进行了分区验证.  相似文献   

9.
聚类数直接关系到聚类算法的聚类质量,但在K-means等经典聚类算法中,对于聚类数的确定目前尚无合适的理论,一般凭经验或试凑指定.这样不仅需要较多的人机交互和耗费较多的试算开销,并且由于最优聚类数常常难以获得,而影响聚类结果的精度.本文提出一种自适应逼近最佳聚类数的算法ADNC(adaptively determining the number of clusters),可以通过自适应方法逼近最优聚类数.逼近是一个反复迭代聚类的过程.每迭代一次,对输出的聚类评估分类空间各图像特征值(输入向量各分量)标准差的平均误差,并构成多特征综合误差;根据梯度下降原理调整聚类数,即在使多特征综合误差逐步减小的同时,逼近最优聚类数.这个最优聚类数一般出现在多特征综合误差开始震荡之前最邻近的位置.以这个聚类数做K-means聚类,可以使同类间特征值异质性降到最小,取得理想的聚类结果.与此同时,还提出了较不适宜聚类数的概念,即可能使聚类误差最大的聚类数.实验表明,最适宜和较不适宜的聚类数两个概念对于改善聚类精度都有实践意义.  相似文献   

10.
针对绿色工艺评价样本具有不确定性、多维性以及量纲差异大的特点,为实现样本的合理分类,提出一种基于核的模糊可能性聚类新算法.该方法将核模糊聚类算法、可能性聚类算法和减法聚类算法相结合,以提高聚类的准确率;使用聚类有效性指标作为分类条件,自适应确定最佳分类数.仿真实验结果表明,该算法具有较好的有效性和鲁棒性,并将该算法运用在绿色工艺评价样本分类中,得到了较好的分类效果,验证了算法的实用性.  相似文献   

11.
在近距空战中,实时获取可靠的空战态势信息对于决策指引是非常重要的.针对近距空战态势变化剧烈以及评估参数多维耦合的问题,提出了一种基于L-Kshape-HACA的多元空战态势分割聚类方法.以分层时序聚类分析为框架,利用拉普拉斯中心性方法确定聚类数目,同时采用Kshape对多元时间序列进行聚类分析,解决了多维参数下的态势信息提取问题.利用12组近距空战数据进行测试,并与14种聚类算法进行比较,结果表明L-Kshape-HACA在聚类中心确定和态势分割准确性上与实际空战态势更加符合.  相似文献   

12.
由于异构数据的发布缺乏灵活性与实用性,提出了一种基于聚类分析的个性化异构数据发布方法.首先综合考虑数据的各种属性,通过聚类标签对数据的集群结构进行编码.另外,通过不断迭代更新原始数据能够始终保留数据的聚类结构,进一步在原始数据中加入噪声从而满足-差分隐私的要求.在满足差分隐私原则的前提下,提出了一种同时处理关系数据和集值数据的不确定性算法,不同类型的数据以类似的方式进行匿名化.通过实验验证了该方法能够有效提升异构数据发布的泛化能力,提升安全性与实用性.  相似文献   

13.
多元统计分析在综合素质评价中的应用   总被引:3,自引:2,他引:1  
利用多元统计分析中的因子分析法与系统聚类分析法相结合的方法对大学生进行了综合素质评价,并得出了重要的结论,该方法克服了人为主观因素及指标间相关性的影响,因而更为客观准确。  相似文献   

14.
聚类分析是数据挖掘中的一个重要技术。提出了一种改进的聚类分析算法,它基于中心距离比值指标,可以自主获得最佳聚类数和聚类结果。并针对一个真实的高校人力资源数据库集,采用改进的聚类算法对教师的现状进行客观而有效的描述,结果表明将聚类算法用于高校人力资源管理是有效的。  相似文献   

15.
随着中国经济的快速发展,环境问题日益严重,也越来越为人类所关注,分析环境质量等级的方法也有很多。聚类法就是其中的一种,聚类分析是在不知道类别数目的情况下对样本数据进行分类。它是根据"物以类聚的道理",对样品和指标进行分类的一种多元统计分析方法。但是聚类分析不能解决同一类中优化排序问题,因此文章采用灰色聚类法来分析华东地区的环境质量分类等级。  相似文献   

16.
目的利用粒子群优化算法和K-均值方法研究彩色图像的量化问题。方法针对K-均值聚类量化算法对初始值比较敏感,易陷入局部极小值从而使得算法得不到全局最优解,为局部搜索算法,以及粒子群优化算法是一种全局寻优方法的特征,把K-均值聚类方法和粒子群优化算法结合起来,将K-均值聚类方法中的聚类函数作为粒子群优化算法中的粒子适应度函数,对彩色图像进行聚类量化。结果实验表明新算法在峰值信噪比和均方根误差评判准则下可以得到更好的量化结果。结论新方法有效地克服了K-均值聚类方法和粒子群优化算法的不足。  相似文献   

17.
提出了一种改进的和声搜索算法并应用到聚类分析中.首先,将状态反馈机制引入到和声搜索算法中,通过判断和声记忆库中"最优"和声和"最差"和声之间的差异,来动态调整和声记忆库考虑概率和移动步长,使算法能够快速地收敛到全局最优解.通过更新和声向量中精度变量对应的聚类中心来最小化目标函数值,获得数据样本的最优划分.其次,提出了一种数据样本真实聚类中心数的确定方法,当输入样本数大于真实聚类中心数时,通过计算能够自动地确定数据样本真实聚类中心数目.最后,应用4种性能指标来比较所提算法与蚁群聚类算法和原始和声搜索聚类算法的性能.结果表明,所提算法的性能优于另两种算法.  相似文献   

18.
仿造迷彩颜色确定的一种新方法   总被引:3,自引:0,他引:3       下载免费PDF全文
为了正确选取仿造迷彩的颜色,采用基于CIE1976L*a*b*均匀颜色空间的K-mean聚类算法将均方根误差函数作为评价函数.仿真结果表明背景图像与其三色和五色聚类图像的均方根误差均小于0.1.此算法可避免人为地在颜色空间上量化带来的色差,能与背景更有效地融合,更好地满足迷彩伪装设计要求,同时也可为仿造迷彩自动化设计提...  相似文献   

19.
针对微阵列芯片数据采集量大、 获取成本高的问题, 提出一种新的基于灰值区间的微阵列模拟数据生成算法. 该算法通过灰值度量的方式模拟微阵列数据中基因的差异表达属性, 结合聚类分析方法创建聚类隧道, 进而产生与原始数据具有相似数理分布及生物学意义的模拟数据. 采用模拟数据和真实生物数据对算法进行实验验 证与分析, 实验结果表明, 基于灰值区间理念与聚类隧道产生机制生成的模拟数据是有效且可靠的.  相似文献   

20.
群进化算法是智能计算领域研究的核心内容,而算法中数值型参数的设置是影响算法搜索效率的重要因素,因此设计解决参数设置问题的方法也是群进化算法研究的重要内容.目前解决参数设置问题的常规统计方法是根据算法搜索的部分结果组成有限样本数据,依据统计最好值个数大小的判定结果来确定最优参数预设值.常规统计方法在有些测试样本数据中很难确定唯一的最优参数预设值.为了解决常规统计方法的缺点,提出了一种最优向量法,该方法可以将任意形式有限样本数据转换为向量,依据向量计算的判定规则进行最优参数预设值的确定.实验结果表明,依据获取的有限样本数据通过最优向量法找到最优参数值,采用该参数值的群进化算法搜索效率相对最优,从而验证了最优向量法的有效性.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号