首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 15 毫秒
1.
针对MinMax k-means算法易产生空解、 收敛速度慢和计算效率低的问题, 提出一种增量式MinMax k-means聚类算法. 该算法从给定的初始聚类个数开始, 以固定步长递增式产生新的聚类中心, 采用基于数据均衡的快速分裂方法产生增量聚类中心, 从而避免了传统增量聚类中心选择中遍历数据、k-means聚类算法运行次数过多导致的大计算量问题. 与MinMax k-means及相关算法的对比实验结果表明, 该算法在计算效率和求解精度上均优于对比算法, 有效改善了MinMax k-means聚类对初始化中心敏感和易产生空解的问题.  相似文献   

2.
针对全局K-means聚类算法和快速全局K-means聚类算法在选择下一簇的聚类中心点时,需要逐一计算数据集中每个点作为备选聚类中心点时的簇内平方误差函数,而数据集中存在很多不可能作为备选点的噪声点.为剔除噪声点,提出了一种基于高密度数的DGK-means算法,并通过UCI数据库中的4组数据集进行实验测试.验证了在聚类效果稳定的前提下,改进的DGK-means算法比全局K-means算法和快速全局K-means算法,聚类用时更短,聚类效率更高.  相似文献   

3.
针对传统阴阳k-means算法未利用数据结构导致计算效率较低的问题, 提出一种高效阴阳k-means聚类算法. 该算法根据数据相似性将原始数据进行逐层分解, 并建立满m叉树结构存储各层数据, 以树结构各叶子节点中存储的数据信息建立加权数据, 运行加权阴阳k-means算法得到收敛中心. 在原始数据中以加权数据收敛中心为初始化条件运行传统阴阳k-means算法进一步优化目标函数值. 在5组UCI数据集上与k-means、传统阴阳k-means及另外两种加速算法进行对比实验, 实验结果表明, 该算法具有较高的加速比, 且求解精度与传统阴阳k-means聚类基本相同.  相似文献   

4.
针对目前大部分离群点检测算法未考虑数据的局部信息, 导致离群点检测的准确率低问题, 提出一种新的基于聚类和局部信息的两阶段离群点检测算法. 通过定义新的局部离群因子作为判断数据对象是否为离群点的衡量标准, 改进了传统离群点检测算法的过程. 实验结果表明, 该算法在保持线性复杂度的同时, 能更准确、 有效地挖掘出数据集中的离群点.  相似文献   

5.
基于k-means算法的k值优化的研究与应用   总被引:2,自引:0,他引:2  
k-means算法是经常使用的一种聚类算法,但是易受聚类个数k的影响,其性能主要取决于k值优化,因此对近年来k-means算法的研究现状与进展进行总结。对较有代表性的k值优化的k-means算法,从思想、关键技术等方面进行分析概括,并选用著名数据集对一些典型算法进行了测试,主要从同一个数据集、不同的k值优化情况进行对比分析.上述工作将为聚类分析和数据挖掘的研究提供有益的参考.  相似文献   

6.
针对雷达辐射源信号参数严重混叠、聚类数目未知等问题,提出一种基于入侵性杂草优化模糊聚类的智能算法,该算法无需事先设定聚类数目,而是在整个数据集的属性空间内并行搜寻最佳的聚类数目和聚类中心,具有结构简单、鲁棒性好的特点。将此方法应用到雷达信号的分选当中,并与传统的K均值算法及AP聚类算法进行对比,实验结果验证了该算法的有效性。  相似文献   

7.
Clustering in high-dimensional space is an important domain in data mining. It is the process of discovering groups in a high-dimensional dataset, in such way, that the similarity between the elements of the same cluster is maximum and between different clusters is minimal. Many clustering algorithms are not applicable to high dimensional space for its sparseness and decline properties. Dimensionality reduction is an effective method to solve this problem. The paper proposes a novel clustering algorithm CFSBC based onclosed frequent hemsets derived from association rule mining. which can get the clustering attributes with high efficiency. The algorithm has several advantages. First, it deals effectively with the problem of dimensionality reduction. Second, it is applicable to different kinds of attributes, Third, it is suitable for very large data sets. Experiment shows that the proposed algorithm is effective and efficient  相似文献   

8.
K-means聚类分析算法中一个新的确定聚类个数有效性的指标   总被引:11,自引:0,他引:11  
K-means 算法是聚类分析中使用最为广泛的算法之一.然而,该算法通常受到初始聚类条件的影响.关于这个问题的详细讨论可参看文献[1].该算法的另一个不足之处是,聚类数目K必须作为参数由用户提供.笔者提出了一个新的有关聚类有效性的度量指标和优化的K-means 算法.它能自动确定最佳聚类个数.  相似文献   

9.
针对传统聚类算法效率低、效果差和稳定性弱等弊端,提出一种新的云计算环境下关联性大数据实时流式可控聚类算法。介绍了关联性实时流式数据的定义和特点。通过粗聚类对实时抵达的数据元组进行相应的预处理,确定类簇的数量与中心点位置,形成通过存在差异的宏簇构成的集合,粗聚类采用的算法为Canopy算法。将粗聚类得到的宏簇传至K-means算法,给出了K-means算法的详细步骤,通过K-means算法完成细聚类,介绍了整个细聚类详细步骤。实验结果表明,所提算法具有效率高、质量好、稳定性强等优势,可有效实现云计算环境下关联性实时流式大数据聚类。  相似文献   

10.
以k-means算法为基础,对入侵检测技术和聚类分析技术进行了研究和分析,指出了传统k-means算法的不足,给出了针对性的改进方法.采用KDDCUP99数据集作为源数据集,对k-means以及改进后的算法进行了仿真实验,实验结果表明,改进后的k-means算法在入侵检测系统中,能够有效地提高入侵检测系统的检测率,降低误报率.  相似文献   

11.
针对k-means算法必须事先指定初始聚类数k,并且对初始聚类中心点比较敏感,聚类准则函数对求解的最优聚类数评价不理想,提出一种基于局部密度的启发式生成初始聚类中心方法,在此基础上设计一种准则函数自动生成聚类数目,改进了传统k-means算法.实验表明改进的算法比传统k-means算法提高了聚类效率.  相似文献   

12.
针对可能性聚类对初始化参数设置依赖性较强的问题, 提出一种基于中心自动融合的可能性聚类算法, 并证明了算法中尺度因子的多尺度性质. 该算法通过建立中心的相关性判定准则, 根据数据自身分布特点动态调整聚类数目与结构, 通过引入尺度参数实现对数据的多分辨率分析. 与传统的模糊和可能性聚类算法相比, 该算法摆
脱了对聚类数目及初始化中心或隶属度矩阵设置的依赖性, 易于控制. 人造数据和真实数据实验结果表明, 该算法能自动确定数据中不同尺度下的聚类结构, 具有识别不同大小聚类结构的能力.  相似文献   

13.
提出了一种基于簇特征的文本增量聚类算法:充分利用简单、有效的k-means算法来进行初始聚类,并保留聚类后每个簇的簇中心、均值、方差、文档数、3阶中心矩和4阶中心矩作为该簇的簇特征,当出现新增数据时,利用初始簇的簇特征对新增数据进行聚类.在20newsgroups数据集上的实验结果表明:相比于对整个数据集进行重新聚类,该算法具有一定的优势.  相似文献   

14.
K -均值聚类算法在当前提取数据挖掘的聚类分析方法中已经取得了一定的成就,为了进一步改进其在数据预处理及神经网络结构中的应用,文中对算法进行了缺陷研究,主要做了以下几个方面的工作:对K-means算法进行了思路及算法主要流程分析;得出K-均值聚类算法存在简单、迅速、结果簇密集、簇与簇之间区别较为明显等优点;分析得出算法存在与处理符号属性的数据不太适应、必须事先给出k值(想要生成的簇的个数)、对“噪声数据”以及孤立的点数据有较大影响、需要不断计算更新调整后的新聚类中心等缺点。在实验验证中结果得出:聚类结果可知,选取不同的值初始值对聚类结果的影响很小;如果聚类数据集迭代次数较多时,可以尝试着改变其数据的输入顺序;变动数据集的输入顺序,会直接影响聚类结果。实验结果对于K-均值算法的工作效率提高了具有明显的参考价值,这一研究对于数据挖掘技术的改进具有一定的意义。  相似文献   

15.
基于提供的11种聚类外部指标来组合多个聚类,通过单个对象的簇标记变化递增地更新目标函数来求出共识聚类,并利用模拟退火优化算法框架来解决局部最优问题。在UCI和TREC数据库中选取10个数据集进行几种算法的外部指标聚类性能评估实验,从实验数据的归一化角度和排序角度评估不同外部指标的聚类性能,结果表明:MSS3指标从整体性能表现上最适合用于引导聚类集成,可以作为算法默认的共识函数;基于模拟退火优化算法的聚类集成算法在7个数据集上优于其他聚类方法,而DBSCAN、MCLA、Kmearns算法则在其余3个数据集上表现最好。  相似文献   

16.
提出了一种基于改进混合并行遗传算法的多文档文摘方法.该方法将k-means聚类算法的高效、局部搜索特性,和并行遗传算法的全局优化能力有机结合,解决了k-means算法对初始聚类中心的选择较为敏感,易于陷入局部最优等问题,提高了多文档聚类算法的效率和精确度.  相似文献   

17.
针对k-means算法对初始值敏感、易陷入局部极小值等缺点,结合遗传算法的思想,提出了一种基于遗传算法和k-means算法的混合聚类方法,为了测试该聚类算法的性能,用k-means 算法和改进的算法进行了1组实验,并对2种算法的聚类结果进行比较,实验结果表明算法能够有效地解决聚类问题.  相似文献   

18.
先通过数据约简技术在不损失数据聚类结构的前提下对数据进行精简, 利用提出的近似模糊c均值聚类算法对精简后数据进行划分得到初始化中心, 再在该中心基础上通过模糊c均值聚类算法结合聚类有效性指标, 实现对数据的无监督聚类, 改进了无监督模糊c均值聚类算法聚类性能过分依赖初始化中心及大数据集下计算效率不理想的问题. 与已有算法的对比实验表明, 所提出的算法具有更高的求解精度与计算效率, 得到的聚类个数更合理.  相似文献   

19.
针对经典k-means聚类算法的弊端进行一定程度上的改进,提出一种新的基于距离相等函数决定最佳聚类值的改进方法.实验采用两大类标准数据集来测试该算法,并和k-means算法的结果进行了比较,证实了该改进算法的有效性,解决了聚类数目k值的难确定性问题.  相似文献   

20.
针对蚁群算法容易出现停滞现象而不能对解空间进行全面搜索的问题,提出了一种蚁群-遗传融合的文本聚类算法.该算法将影响蚁群算法性能的4个参数作为遗传算法中的染色体进行编码,基于此又设计出相应的适应度函数以及选择交叉变异算子,通过多次迭代找出最优的参数组合,并将其应用到文本聚类问题上.经与经典的k均值聚类算法、基本的蚁群聚类算法的仿真比较,结果表明所提出算法的聚类效果更好,在3个测试集上的F度量值要比k均值聚类算法分别提高5.69%、48.60%、69.60%,所以更适合于处理较大规模的数据集.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号