首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到17条相似文献,搜索用时 78 毫秒
1.
一种基于密度的引力聚类算法   总被引:1,自引:0,他引:1  
针对传统基于距离的聚类算法所存在的缺点,将万有引力和牛顿第二运动定律思想引入到聚类过程中,提出了一种改进的基于密度的引力聚类算法GCABD.该算法可以自动决定目标数据集中的簇的个数,并且能发现任意形状的簇且可以过滤"噪声"数据.实验结果表明,所提出的GCABD算法的聚类效果和精度均比典型的K-means算法好,提高了聚类质量.  相似文献   

2.
为了定量分析聚类算法的聚类结果,提出了基于引力概念的聚类质量评估算法.该算法将数据空间中的数据点视为带有单位质量的质点,通过分析聚类结果中数据点之间的引力关系来评估聚类结果的质量.在一个聚类结果中,各类中的数据点之间引力大并且噪音数据受到的引力小,这样的聚类结果视为质量较高的聚类结果.相反,如果类中数据间的引力较小而噪音数据所受到的引力较大,这样的聚类结果就是一个质量不高的聚类结果.在几个不同的数据集上,对算法的有效性和高效性进行了测试.实验结果表明,该算法能在极短的响应时间内得到聚类结果评估值,正确地反映聚类结果的优劣.提出的算法可以引导聚类方法自动发现最佳聚类结果而无需人工干预.  相似文献   

3.
一种基于密度的分布式聚类算法   总被引:1,自引:0,他引:1  
对基于密度的分布式聚类算法DBDC(density based distributed clustering)进行改进,提出了一种基于密度的分布式聚类算法DBDC*.该算法在局部筛选代表点时结合贝叶斯信息准则BIC,得到少量精准反映局部站点数据分布的BIC核心点,有效降低了分布式聚类过程中的数据通信量,全局聚类时综合考虑了各站点数据的分布情况.实验结果表明,算法DBDC*的效率优于DBDC,聚类效果好.  相似文献   

4.
一种改进的K-means聚类算法   总被引:1,自引:0,他引:1  
传统的K-means聚类算法对初始聚类中心的依赖程度很大,聚类结果会随聚类中心的选择不同波动很大,为了消除这种中心选择不确定性,提出一种改进的K-means聚类算法,从而有效地改善初始聚类中心点选择的随机性,提高聚类结果的稳定性.仿真实验结果表明,改进后的K-means聚类算法优于传统的算法.  相似文献   

5.
作为数据挖掘技术的重要组成部分,聚类分析在很多领域有着广泛的应用.蚁群算法由于采用分布式并行处理和正反馈机制,具有较好的全局收敛性,并且在解决多种NP难问题中取得了成功.将信息素扩散模型引入到蚁群聚类算法中,通过设计新的信息素更新机制,提出一种新的基于信息素扩散的蚁群聚类算法.实验结果表明新算法在聚类效果上比基本的蚁群聚类算法有较明显的改善.  相似文献   

6.
一种基于密度的聚类算法实现   总被引:1,自引:0,他引:1  
基于密度的聚类算法OPTICS是一种大规模数据库的聚类算法,它是基于核心对象和可达距离来实现的.对于每一个核心对象将其邻域内的所有对象按到该核心对象的可达距离进行排序,每次都选择1个到该核心对象具有最小的可达距离的对象进行信息更新.算法实现采用优先队列保存候选对象以加快处理速度,最后用UCI数据集对算法进行聚类效果测试,结果表明OPTICS算法对数据集产生一个基于密度的簇排序结构.  相似文献   

7.
针对密度聚类算法对邻域参数设置敏感的问题,提出一种基于密度的模糊自适应聚类算法.算法在无需预先设置聚类数以及邻域参数的情况下,可以自适应地根据样本间距离关系确定邻域半径得到样本密度,并根据样本密度逐渐增加聚类中心.为了保障聚类结果的正确性,同时提出一种新的模糊聚类有效性指标以判断最佳聚类数,消除了密度聚类算法对参数的敏感性.用UCI基准数据集进行实验,发现本文算法在对数据进行聚类时,聚类质量较原始密度聚类算法在准确性和自适应性方面均有显著提高.  相似文献   

8.
张选平  祝兴昌  马琮 《西安交通大学学报》2007,41(12):1387-1390,1395
针对基于密度的聚类算法由高密度区到低密度区的处理顺序所带来的不能识别低密度对象类别的缺陷,通过对聚类过程中可能存在的边界识别进行讨论,提出了一种基于边界识别的聚类算法.该算法的思想是:同簇优先权高于密度优先权,即在选择下一个对象进行聚类时,在已聚类的对象中优先选择同一簇的对象,当对象沿某一方向扩展到达簇边界时停止扩展,转而向其他方向扩展,这种处理顺序能使得类别最大化.通过分析簇边界的密度变化特征,建立了边界识别准则,并根据该准则对数据进行聚类.通过在合成数据和美国加州大学提供的知识挖掘数据库数据集上的实验结果表明,所提算法能有效地处理低密度区域的数据,与识别聚类结构的对象排序算法相比,聚类效果可提高4%左右,而时间性能相当.  相似文献   

9.
一种改进的模糊聚类算法   总被引:10,自引:0,他引:10  
针对现有聚类算法在参数输入、停机条件等方面存在诸多人为控制因素的问题,采用信息熵理论使聚类标准客观化,同时结合模糊聚类的思想,以隶属度作为信息熵计算的基础,并采用谱系的方法确定聚类数目,从而改进模糊聚类算法.研究表明,提出的基于信息熵的算法能够比较客观、科学地反映实际聚类情况.  相似文献   

10.
增量算法的要求是聚类特征一般是可加的、非迭代的。文中提出了一种基于密度的网格聚类算法GDCLUS,并在此基础上提出了增量式算法IGDCLUS,它可发现任意形状的聚类,具有高效、易实现的特点,适用于数据库周期性地增量环境下的数据批量更新。  相似文献   

11.
陈蓉  李艳萍 《科学技术与工程》2012,12(35):9725-9729
大多数数据挖掘算法都可以对数据进行相对准确的分类,然而他们都集中于单独地使用聚类的方法。所以对于离群点存在的数据集,常常不能得出准确的结果。而COID算法(Cluster-outlier Iterative detection)把簇和离群点巧妙地结合起来,通过它们之间的关系来检测离群点并进行合理聚类。为进一步提高该算法的实用性,现利用prim算法确定初始簇中心,从而降低了迭代次数,实验证明改进后的算法具有更好的可行性、有效性和准确性,适合于高维数据中对于聚类检测的要求。  相似文献   

12.
为解决传统 K-means 算法中因初始聚类中心选择不当而导致聚类结果陷入局部极值的问题, 采用蝙蝠算法搜寻 K-means 算法的初始聚类中心, 并将模拟退火的思想和基于排挤的小生境技术引入到蝙蝠算法中, 以克服原始蝙蝠算法存在后期收敛速度慢、 搜索力不强等问题。 同时, 通过测试函数验证了其有效性。 最后利用改进后的蝙蝠算法优化 K-means 算法的初始聚类中心, 并将该改进的算法与传统的 K-means 算法的聚类结果进行了对比。 实验结果表明, 改进后的算法的聚类性能比传统的 K-means 算法有很大提高。  相似文献   

13.
用k-means算法对二维数据进行聚类分析,并用C#语言实现了该算法。先按照样本点的距离进行初始划分,然后再按照各样本点和初始中点的距离远近进行聚类。结果表明,k-means算法对二维数据的聚类是有效的,实现该算法的程序对二维数据的聚类具有通用性。  相似文献   

14.
基于遗传和蚁群算法融合的聚类新方法   总被引:1,自引:0,他引:1  
遗传算法具有快速良好的全局搜索能力,而蚁群聚类算法具有良好的分布式并行性和正反馈能力。将两种算法进行融合,充分利用算法各自的优势和特点,能更有效地进行聚类分析。实验证明这种新组合算法在优化能力和时间性能上比常用的聚类算法有比较明显的优势。  相似文献   

15.
基于测度的网格聚类算法   总被引:1,自引:0,他引:1  
基于测度的网格聚类方法在数据空间上定义计数测度,并以计数测度构造目标函数.通过调整划分数据空间的分辨率,使目标函数值最大,从而实现分辨率的自动确定.在此分辨率下,某些数据细节被忽略,但是数据的主要属性和关系更为明显.距离较近的数据将被聚类到属性相同的同一簇中,使簇间的数据相似性最小,簇内的数据相似性最大.算法中没有对参数值进行人为设定,可以实现提高准确性的目的.  相似文献   

16.
针对原始K-means算法的一系列问题,提出一种基于半监督的K-means聚类改进算法,能够自动进行聚类,找出最优K值,并且最大限度地找出孤立点.首先根据样本集自身的特点,按照"类内尽可能相似"原则一步一步形成数据集,然后对数据集进行"去噪"与合并相似簇,最后,利用少量的标记信息指导和修正聚类结果.在UCI的多个数据集...  相似文献   

17.
分析了几种现有聚类算法中簇间距离表示法的优缺点,并在此基础上提出了一种基于万有引力模型的簇间距离计算方法。该方法模仿物理学中力的合成原理,是对把各质点间引力数值直接相加的重要改进。理论分析及数据计算的结果都表明,该方法比引力直接相加有更广的适应性。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号