首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 0 毫秒
1.
一个基于K-means的聚类算法的实现   总被引:9,自引:0,他引:9  
聚类算法作为数据挖掘中的一种分析方法,它能找到样本比较密集的部分,并且概括出样本相对比较集中的区域.分析了传统的聚类算法及局限性,讨论了一个基于K-mealls算法的实现过程,使得算法可处理存在孤立点的大文档集,得到最佳的聚类结果。  相似文献   

2.
在使用K-Means进行文本聚类的研究中,针对K-Means算法缺点,提出了利用DBSACN算法确定参数K的方法,将基于密度的聚类算法应用于特征选取上,使得K值计算有了一定的确定性,从而提高了聚类质量。这种将多种算法混合运用的方法,为文本聚类算法的设计提供一个新的方向。  相似文献   

3.
随着大数据时代的到来,如何快速、准确地从海量数据中挖掘有用的信息成为一个极其关键的问题。随着样本数据维度和数量的增加,导致K-Means聚类算法的计算成本急剧增加。因此,一种新颖的加速精确K-Means聚类算法近期被用来降低计算成本,称为“Ball K-Means”。尽管Ball K-Means降低了计算成本,但是该算法和K-Means算法都缺乏全局搜索能力。因此,本文从全局搜索能力和计算成本两个因素考虑,通过在Ball K-Means算法中引入一种防止聚类过程过早收敛的探索向量,提出一种针对高维度、大样本数据的基于探索向量的Ball K-Means聚类算法,称为“Ball XK-Means”。实验结果表明,在高维度和大样本数据下,本文提出的算法不仅比Ball K-Means和K-Means算法能够获更稳定和更精确的聚类结果,而且比K-Means和XK-Means算法有更低的计算成本和更高的效率。  相似文献   

4.
为了弥补K-Means算法对孤立点数据敏感的缺陷,提高K-Means算法对包含孤立点数据集的聚类效果,在深入研究K-Means算法的基础上,提出了基于PAM和簇阈值的改进K-Means聚类算法。该算法首先对待聚类数据进行抽样,然后利用PAM算法获取样本数据的聚类中心,以样本数据的聚类中心作为KMeans算法的初始聚类中心。在聚类迭代过程中动态计算各簇阈值,利用簇阈值准确地过滤孤立点数据。实验结果表明,本文提出的算法不仅聚类时间短,而且具有较高的聚类准确率。  相似文献   

5.
K-Means聚类算法在面对海量数据时,时间和空间的复杂性已成为K-Means聚类算法的瓶颈.在充分研究传统K-Means聚类算法的基础上,提出了基于集群环境的并行K-Means聚类算法的设计思想,给出了其加速比估算公式,并通过实验证明了该算法的正确性和有效性.  相似文献   

6.
K-Means算法是划分式聚类算法。本文通过在应用中的编程实现分析了基于欧式距离的划分式聚类算法的基本原理、实现步骤和编程时的注意事项,最后分析了该算法的优缺点。  相似文献   

7.
针对K-Means算法对初值敏感和容易陷入局部最优的缺点,本文提出一种基于概率的随机扰动聚类中心优化算法。首先,每次迭代后重新计算聚类中心,以聚类中心为圆心向外搜索一定邻域内的点,将聚类中心以概率随机定位到邻域内的某个点上,称该点为物理中心点;之后,选定的物理中心点以一定速率向聚类中心方向移动一定距离,计算出的位置即为新的聚类中心;最后,根据欧氏距离重新划分数据集。该算法通过概率扰动方式使聚类中心不再固定为某一点,而将其中心扩大到一定区域,搜索该区域内的最优解,从而极大地避免了K-Means算法陷入局部最优的可能;并且,即使计算进程已经陷入局部最优,优化后的算法也可以通过最优区域搜索,以一定概率的机会跳出局部最优。  相似文献   

8.
9.
10.
三支聚类对不确定对象引入了边界域,可以有效解决传统二支聚类方法中由于信息不完整而导致划分不准确的问题。如何获得三支聚类的核心域和边界域是目前研究三支聚类的重点之一。该文将共现概率与三支聚类相结合,提出了基于共现概率的三支聚类模型。首先,基于朴素贝叶斯确定两样本的共现概率;其次,给出了基于共现概率的相似关系及其粗糙集的下、上近似,获得三支聚类的核心域和边界域;最后,在UCI数据集上的实验结果显示,该方法提高了聚类精度,验证了其可行性。  相似文献   

11.
为加强用户对水印的嵌入数量、嵌入强度、数据选择的控制,提出一种基于带大小约束聚类的数据库水印方案,分析了类别数量对水印嵌入之后数据可用性的影响。在传统的模糊C均值聚类方法的基础上加入条件约束,使原始数据划分为均衡的n类。在各类别数据中用户可以用密钥控制选取其中几类数据嵌入水印。在水印嵌入之前可以根据水印的稀疏程度设置比例参数,体现用户控制版权的原则。实验表明,方案有较好的可行性和鲁棒性,并且安全性有了一定的提高。  相似文献   

12.
基于山峰聚类的聚类上限确定方法   总被引:1,自引:0,他引:1  
文章提出了一种基于山峰聚类的聚类上限检测方法,依靠山峰聚类确定聚类数目的上限,仿真试验表明,这种方法能将聚类上限确定在一个合理的范围之内,从而加快聚类的效率.  相似文献   

13.
在模糊C-均值聚类(FCM)目标函数的基础上按聚类中心分离原则增加一个聚类中心分离项来扩展FCM算法,提出基于聚类中心分离的模糊聚类模型(FCM_CCS)。该模型可使聚类过程中的聚类中心之间距离扩大,从而得到更好的聚类效果。由于该模型和FCM一样对噪声敏感我们提出它的可能性聚类模型(PCM_CCS),最后进一步扩展成它的可能性模糊聚类模型(PFCM_CCS)。基于聚类中心分离的可能性模糊聚类模型在处理噪声数据和克服一致性聚类问题方面表现出良好的性能。对数据集的测试实验结果表明了提出的PFCM_CCS能同时产生模糊隶属度和典型值,使聚类中心间距扩大,同时具有更好的聚类准确率。  相似文献   

14.
提出一种MapReduce框架下基于抽样的分布式K-Means聚类算法,解决海量数据环境下并行执行K-Means算法时,时间开销较大的问题.该算法使用抽样方法,在保证数据分布不变的前提下,对数据集的规模进行约减,并在MapReduce框架下对聚类算法进行优化.实验结果表明,该算法在保持良好聚类效果的同时,能有效缩短聚类时间,对大规模数据集具有较高的执行效率和较好的可扩展性.  相似文献   

15.
 空间聚类和空间索引的结合是当前空间数据库中提高数据检索效率的技术之一。本文从空间聚类和空间索引的存储原理入手,阐述了K-Means聚类算法及其改进算法的技术思路,研究了K-Means算法在空间数据库中与空间索引方法结合的技术问题;分析了当前基于K-Means算法的R-树系列空间索引技术的研究成果,阐述了它们提高空间检索效率的技术路线及实验结果,研究显示这些技术都能在一定程度上提高数据检索的效率。最后给出了聚类与空间索引结合技术未来的研究方向。  相似文献   

16.
在改进的PSO算法与K均值算法基础上,提出K-PSO聚类算法.首先使用改进的PSO算法寻找最优的k个初始聚类中心点,然后利用K-Means算法找到聚类结果,最后把找到的结果输出即可.算法中待求解的向量空间中每个向量被描述为一个点,在数据集中的每个项目被描述为解空间中的一个维,整个数据集作为一个带很多点的多维空间来描述,每个点映射为一个粒子,整个数据集就是一个粒子群.实验表明,改进后的算法用于入侵检测系统中,可以提高异常检测的准确率,降低误报率.  相似文献   

17.
原始的k-means算法是从样本点的集合中随机选取K个中心,这种选取具有盲目性和随意性,它在很大程度上决定了算法的有效性.为消除选取初始中心的盲目性,应充分利用已有数据样本点的信息.采取对数据进行预处理的方式来选取初始中心.实验证明新的初始点的选取不仅提高了算法的计算效率,也提高了算法最终确定的聚类的精度.  相似文献   

18.
聚类分析是重要的数据挖掘方法,在商务智能、地理信息系统、医学等方面有广泛的应用.随着聚类分析的蓬勃发展,涌现出了许多聚类算法,其中最重要的算法之一是基于密度的空间聚类以及其多种变种——基于密度连通链、基于加权密度、基于引力连通集合的算法.这些算法在概念上相似但没有统一的描述.本文针对基于密度的空间聚类及其变种提出了拓扑的概念.给出了聚类拓扑结构的定义,把簇定义为拓扑连通集合.此外,本文运用全新的拓扑思想改进典型的算法,提出了一种拓扑聚类的新算法.实例证明此算法有效.  相似文献   

19.
针对FCM算法的缺陷,文章提出了一种基于层次聚类的模糊聚类算法(HFCM)。该算法采用凝聚的层次聚类方法,可快速地发现高度聚集的数据区域,并对这些高密度区域进一步进行分析与合并,通过评估函数的评估,找到最优的聚类方案。试验结果表明,该算法具有较高的分类精确度和较高的排除噪声的能力。  相似文献   

20.
为了实现可靠的稻飞虱虫害诊断,使用PR715光谱辐射度计采集了健康水稻叶片、有幼虫寄生的叶片、单个体成虫及参考白板的光谱值,获得各个阶段稻飞虱病虫害的光谱。由于原始光谱在谱线的两端噪声比较大,因此用滤波方法对光谱进行平滑处理,得到相对平滑的反射率光谱曲线。采用主分析、欧式距离和余弦3中方法进行聚类分析,其中主成分分析、余弦的分类正确率为100%,欧式距离的平均分类正确率均为:92.24%,相对较差。实验结果证明,光谱分析方法在一定程度上能快速、精确提取稻飞虱病害的信息,实现聚类分析,为对稻飞虱病虫害进行快速、精确和非破坏性诊断提供技术支持。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号