首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到18条相似文献,搜索用时 62 毫秒
1.
受物理学中量子机制特性的启发,结合层次凝聚思想,通过引入新的相异性度量测度以及聚类度量尺度步长sβtep概念,重新定义以紧致性指标AIAD和离散性指标AIED为基础的聚类有效性函数CVF,提出一种针对分类属性数据的基于量子机制层次聚类算法CQHC.该算法首先在不同粒度水平上划分数据样本产生初始类(簇),然后以聚类有效性函数CVF为评价标准,动态地合并初始类(簇)完成聚类.仿真实验采用2个真实数据集,即:线性可分的大豆疾病样本数据集和线性不可分的动物园数据集.实验结果表明,该算法与已有的其他几个算法相比,不仅具有更高的聚类准确率,而且能够准确地检测出最佳类别数,是有效且可行的.  相似文献   

2.
CABOSFV_C是一种针对分类属性高维数据的高效聚类算法,该算法采用集合稀疏差异度进行距离计算,并采用稀疏特征向量实现数据压缩。该算法的聚类效果受集合稀疏差异度上限参数的影响,而该参数的选取没有明确的指导。针对该问题提出基于集合稀疏差异度的启发式分类属性数据层次聚类算法( heuristic hierarchical clustering algorithm of categorical data based on sparse feature dissimilarity,HABOS),该方法从聚结型层次聚类思想的角度出发,在聚类数上限参数的约束下,应用新的内部聚类有效性评价指标( clustering validation index based on sparse feature dissimilarity, CVISFD)进行启发式度量,从而实现对聚类层次的自动选取。 UCI基准数据集的实验结果表明,HABOS有效地提高了聚类准确性和稳定性。  相似文献   

3.
基于核方法的分类型属性数据集模糊聚类算法   总被引:1,自引:0,他引:1  
针对分类型属性数据的聚类问题.将核方法的思想推广到快速、高效率的模糊c-均值算法,构造了基于核函数的模糊核c-均值聚类算法.该算法通过使用经验核矩阵充分利用了数据间的“相异性”信息,并且避免了模糊k-modes算法中每次迭代均要直接计算类中心的缺点,提高了聚类的精确度和稳定性.同时该算法对模式(类中心)的初始值选择不敏感.时实际的线性可分的和线性不可分的分类型属性数据集的仿真实验证明了该算法的有效性.  相似文献   

4.
聚类布尔和分类数据   总被引:1,自引:0,他引:1  
提出了一种判别布和分类属性相似度的准则,并在此基础上提出了一种新的聚类的算法CAC,该算克服了传统聚类算法不适合聚类布尔和分类属性数据的缺点,实验表明CAC算法比传统的聚类算法有更好的聚类效果。  相似文献   

5.
用聚类-分类模式解决聚类问题   总被引:4,自引:2,他引:2  
分类和聚类都是常用的数据挖掘方法,分类的优点是准确率较高,但需要带有类别标注的训练集;聚类不需要训练集,但准确率较低。提出一种聚类-分类模式来解决聚类问题,首先通过聚类方法自动形成训练集,然后在训练集的基础上进行分类操作。实验数据表明,提出的聚类-分类模式能够有效提高聚类的准确率。  相似文献   

6.
硬聚类算法HCM的求解结果通常是局部最优解,本文将遗传算法应用于HCM聚类算法,同时考虑到该算法实现时的效率和开销,最终提出了一种新的算法MHCM聚类算法。测试数据实验表明采用MHCM聚类算法的结果90%以上能够取得全局最优解,远远超出了采用HCM算法所取得全局最优解的次数,证明了本算法的可推广性。  相似文献   

7.
针对传统K-means算法的聚类结果依赖初始聚类中心的缺陷,提出了一种基于密度的改进K-means聚类算法,该算法选择位于数据集样本密集区且相距较远的数据对象作为初始聚类中心,实现K-means聚类。针对PAM算法时间复杂度高,且不利于大数据集处理的缺陷,提出了一种基于密度的改进K-medoids聚类算法,在选取初始中心点时根据数据集样本的分布特征选取,使得初始中心点位于不同类簇。UCI机器学习数据库数据集和随机生成的带有噪音点的人工模拟数据集的实验测试证明,基于密度的改进K-means算法和基于密度的改进Kmedoids算法都具有很好的聚类效果,运行时间短,收敛速度快,有抗噪性能。  相似文献   

8.
针对FCM算法的缺陷,文章提出了一种基于层次聚类的模糊聚类算法(HFCM)。该算法采用凝聚的层次聚类方法,可快速地发现高度聚集的数据区域,并对这些高密度区域进一步进行分析与合并,通过评估函数的评估,找到最优的聚类方案。试验结果表明,该算法具有较高的分类精确度和较高的排除噪声的能力。  相似文献   

9.
基于测度的网格聚类算法   总被引:1,自引:0,他引:1  
基于测度的网格聚类方法在数据空间上定义计数测度,并以计数测度构造目标函数.通过调整划分数据空间的分辨率,使目标函数值最大,从而实现分辨率的自动确定.在此分辨率下,某些数据细节被忽略,但是数据的主要属性和关系更为明显.距离较近的数据将被聚类到属性相同的同一簇中,使簇间的数据相似性最小,簇内的数据相似性最大.算法中没有对参数值进行人为设定,可以实现提高准确性的目的.  相似文献   

10.
提出了一种新的自适应的检测算法——量子遗传模糊聚类算法(QGFC).该算法利用量子遗传理论,在无监督的条件下,通过模糊聚类的方法对数据集进行自动分类,以达到自主识别入侵行为的目的.实验仿真结果显示,此算法可以有效地对入侵行为进行检测.  相似文献   

11.
k-prototypes和模糊k-prototypes是处理数值属性和分类属性混合数据主要的聚类算法。但这两种聚类算法不足之处是对初值有明显的依赖。对初值选取方法进行了分析和研究,提出一种新的改进方法,可在一定程度上减少随机性。实际数据集仿真结果表明改进算法有更高的稳定性和较强的伸缩性。  相似文献   

12.
In this paper, a new approach for visualizing multivariate categorical data is presented. The approach uses a graph to represent multivariate categorical data and draws the graph in such a way that we can identify patterns, trends and relationship within the data. A mathematical model for the graph layout problem is deduced and a spectral graph drawing algorithm for visualizing multivariate categorical data is proposed. The experiments show that the drawings by the algorithm well capture the structures of multivariate categorical data and the computing speed is fast.  相似文献   

13.
研究了K均值算法中初始聚类中心的选择对算法本身聚类精度及效率的影响,并提出了改进的算法(LK算法,Leader+K-means).LK算法中的初始聚类中心选择不是随机的,而是利用Leader算法得到若干个初始类中心,然后选择包含数据项最多的k个类中心,作为K均值算法的初始类中心.实验结果表明,LK算法在聚类结果的稳定性和正确率方面都是有效可行的.  相似文献   

14.
区间数据的并行模糊聚类算法   总被引:7,自引:0,他引:7  
研究了对区间数据进行聚类的模糊聚类算法;介绍和分析了模糊c-均值算法的基本思想及实现步骤;定义了区间数据的距离和四则运算,并推广模糊c-均值算法对区间数据进行聚类.在此基础上,讨论了对区间数据进行聚类的并行模糊c-均值算法.在分布式互连的PC/工作站环境下进行性能分析,结果表明并行的模糊c-均值算法具有好的可扩展性、规模增长性和加速比性能.  相似文献   

15.
基于信息熵改进的 K-means 动态聚类算法   总被引:3,自引:2,他引:1  
初始聚类中心及聚类过程产生的冗余信息是影响K-means算法聚类性能的主要因素,也是阻碍该算法性能提升的主要问题.因此,提出一个改进的K-means算法.改进算法通过采用信息熵对聚类对象进行赋权来修正聚类对象间的距离函数,并利用初始聚类的赋权函数选出质量较高的初始聚类中心点;然后,为算法的终止条件设定标准阈值来减少算法迭代次数,从而减少学习时间;最后,通过删除由信息动态变化而产生的冗余信息来减少动态聚类过程中的干扰,以使算法达到更准确更高效的聚类效果.实验结果表明,当数据样本数量较多时,相比于传统的K-means算法和其他改进的K-means算法,提出的算法在准确率和执行效率上都有较大提升.  相似文献   

16.
缺失数据插补是数据科学中的基本方法之一.本文针对类别型缺失数据提出了一种基于聚类和半参数logisitic学习模型的插补法.该方法首先采用K-近邻法对缺失数据进行预插补,然后用聚类算法将数据分类,提高数据间的相似性,再为每一类数据集建立半参数logistic学习模型,进而完成最后的插补.基于中国家庭金融调查(CHFS)数据集的实证研究表明,该方法优于常用的K-近邻插补法和随机森林插补法.  相似文献   

17.
A dynamic fuzzy clustering method is presented based on the genetic algorithm. By calculating the fuzzy dissimilarity between samples the essential associations among samples are modeled factually. The fuzzy dissimilarity between two samples is mapped into their Euclidean distance, that is, the high dimensional samples are mapped into the two-dimensional plane. The mapping is optimized globally by the genetic algorithm, which adjusts the coordinates of each sample, and thus the Euclidean distance, to approximate to the fuzzy dissimilarity between samples gradually. A key advantage of the proposed method is that the clustering is independent of the space distribution of input samples, which improves the flexibility and visualization. This method possesses characteristics of a faster convergence rate and more exact clustering than some typical clustering algorithms. Simulated experiments show the feasibility and availability of the proposed method.  相似文献   

18.
陶涛  毛伊敏 《科学技术与工程》2021,21(21):8989-8998
针对大数据背景下基于划分的聚类算法中存在参数寻优能力不佳、初始中心敏感、数据倾斜等问题,提出一种基于MapReduce和人工蜂群(artificial bee colony,ABC)算法的并行划分聚类(the partitioning-based clustering algorithm by using im-prove artificial bee colony based on MapReduce,MR-PBIABC)算法.首先,提出基于反向学习和聚类准则函数的初始化策略(backward learning and the clustering criterion function,BLCCF),提升人工蜂群算法搜索的解质量,并将ABC算法和人工鱼群(artificial fish colony,AFS)算法结合,提出改进人工蜂群(improve artificial bee colony,IABC)算法,通过利用AFS算法最优解能力较强的特性,来提高ABC算法的寻优能力;其次,根据改进的人工蜂群算法IABC获取初始聚类中心,提出相对熵策略(rela-tive entropy strategy,RES)衡量人工鱼间的距离,保证获得的初始聚类中心是最优人工鱼状态,从而有效避免了随机选取初始聚类中心,引起的初始中心敏感的问题;再次,设计数据均衡策略(data balancing strategy,DBS),通过动态收集节点负载并分配节点间的负载,解决了节点上数据倾斜的问题;最后,结合MapReduce计算模型,并行挖掘簇中心,生成最终聚类结果.实验结果表明,MR-PBIABC算法的聚类效果更佳,同时在大数据环境下,能有效地提高并行计算的效率.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号