首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 78 毫秒
1.
聚类是数据挖掘中的关键问题,吸取了BIRCH算法中构造簇特征树来产生初始聚类中心的方法,提出了一种基于随机抽取的有限深度层次聚类算法(RSLDCH算法),采用随机抽取样本、限制特征树深度、构建叶子节点链表技术从而提高了算法的时间效率和聚类效果.实验表明,RSLDCH较BIRCH在运行速度和聚类效果上有一定的提高.  相似文献   

2.
随着网络的普及和信息量的急剧增加,从海量数据中提取有用的数据信息已迫在眉睫。在对已有的基于密度偏差抽样算法改进的基础上,提出了一种基于密度偏差抽样的聚类算法。实验表明,随着信息量.数据维数的增加,该算法聚类的正确率以及对数据的处理速度都要较传统的聚类算法有所提高。  相似文献   

3.
硬聚类算法HCM的求解结果通常是局部最优解,本文将遗传算法应用于HCM聚类算法,同时考虑到该算法实现时的效率和开销,最终提出了一种新的算法MHCM聚类算法。测试数据实验表明采用MHCM聚类算法的结果90%以上能够取得全局最优解,远远超出了采用HCM算法所取得全局最优解的次数,证明了本算法的可推广性。  相似文献   

4.
针对传统K-means算法的聚类结果依赖初始聚类中心的缺陷,提出了一种基于密度的改进K-means聚类算法,该算法选择位于数据集样本密集区且相距较远的数据对象作为初始聚类中心,实现K-means聚类。针对PAM算法时间复杂度高,且不利于大数据集处理的缺陷,提出了一种基于密度的改进K-medoids聚类算法,在选取初始中心点时根据数据集样本的分布特征选取,使得初始中心点位于不同类簇。UCI机器学习数据库数据集和随机生成的带有噪音点的人工模拟数据集的实验测试证明,基于密度的改进K-means算法和基于密度的改进Kmedoids算法都具有很好的聚类效果,运行时间短,收敛速度快,有抗噪性能。  相似文献   

5.
针对FCM算法的缺陷,文章提出了一种基于层次聚类的模糊聚类算法(HFCM)。该算法采用凝聚的层次聚类方法,可快速地发现高度聚集的数据区域,并对这些高密度区域进一步进行分析与合并,通过评估函数的评估,找到最优的聚类方案。试验结果表明,该算法具有较高的分类精确度和较高的排除噪声的能力。  相似文献   

6.
K-means聚类算法是近年来数据挖掘学科的一个研究热点和重点,该算法是基于划分的聚类分析算法.目前这种算法在聚类分析中得到了广泛应用。本文将介绍K-means聚类算法的主要思想,及其优缺点。针对该算法经常陷入局部最优,以及对孤立点敏感等缺点,提出了一种基于模拟退火算法的方法对其进行优化,可以有效地防止该算法陷入局部最优的情况。  相似文献   

7.
覆盖聚类算法   总被引:9,自引:0,他引:9  
首先比较几类主要的聚类算法,给出每类算法的基本概念、原理、每类的代表性算法,及这些算法的主要特征。在此分析基础上,提出一种新的聚类算法———覆盖聚类算法,该算法采用覆盖的概念将比较集中的样本聚合在一起,从而发现隐含在样本集中的类,对于周围稀疏的样本结合最短距离法,获得聚类效果,并用实验数据对分层聚类方法、LBG方法与覆盖聚类算法进行比较,证明了覆盖聚类算法的可行性和有效性。最后给出了算法的研究方向。  相似文献   

8.
聚类算法是多元统计的一个重要分支,在理论和实际生活中都有重要的意义。本文对聚类算法的发展历程以及近年来发展的一些聚类算法进行研究。  相似文献   

9.
为了更好地实现聚类,在分析分层聚类和FCM算法优缺点的基础上提出了一种改进的聚类算法。改进算法将分层聚类和FCM聚类算法的优点相结合,首先采用分层聚类,得到一初始聚类结果,然后应用FCM聚类算法重聚类。实验结果表明,改进算法较原传统的聚类算法,不但算法执行速度较快、效率较高,而且聚类效果也较好。  相似文献   

10.
将万有引力和牛顿第二运动定律的思想引入到聚类分析中,提出了一种基于引力的聚类算法CABG.该算法可以自动决定目标数据集中的簇的个数,并且能发现任意形状的簇且可以过滤“噪声”数据.实验结果表明CABG可以产生高质量的聚类结果.  相似文献   

11.
基于网格和密度的随机样例的聚类算法   总被引:2,自引:0,他引:2  
为提高密度聚类算法效率并处理非空间属性约束,提出了基于网格和密度的聚类算法(GDRS).它使用网格区域表示点的邻域,非空间属性被分为数值和字符类型.首先通过网格方法找到能准确反映数据空间几何特征的参考点;然后随机选择没有分类的参考点,并测试其邻域的稀疏状况、与其他聚类的关系以及非空间属性的约束来决定加入、合并聚类或形成新的聚类;最后把参考点映射回数据.把此算法和DBSCAN及DBRS算法进行了理论比较,并使用合成和真实数据集对GDRS和DBSCAN进行了对比.实验表明,GDRS具有密度算法的优点,即可发现各种形状的聚类并能屏蔽噪声点,且执行效率明显优于密度算法.  相似文献   

12.
为解决实时分析处理的海洋 Argo 浮标剖面观测数据特有的数据密度较高、快速响应且需要识别任意形状簇等问题, 提出了一种可通过单次扫描数据集进行有效处理的低复杂度聚类算法 DBIRCH( Density-BasedBalanced Iterative Reducing and Clustering Using Hierarchies)。 该算法通过使用新引入的参数密度阈值修正因子,动态的更新限制 CF(Clustering Feature)树生长的约束系数子空间阈值, 同时结合密度关联思想在不同邻域内多次建立 CF 树且合并, 最终以核心 CF 树子节点为聚类结果输出, 避免了 BIRCH(Balanced Iterative Reducing and Clustering Using Hierarchies)算法对参数的过度依赖, 同时因能处理任意形状簇从而提升了数据处理的整体鲁棒性, 提高了处理 Argo 剖面监测数据的时效性和算法的整体吞吐速度。 为测试算法的综合性能, 使用真实 Argo浮标剖面实时监测数据集, 并根据不同的参数对算法做出多组对比实验, 同时使用不同评价指标对算法从运行时间和聚类准确率上进行综合评估, 从全局角度分析该算法在 DBSCAN(Density-Based Spatial Clustering of Applications with Noise)、 BIRCH 及 DBIRCH 3 种不同算法中综合聚类性能最优。 实验结果表明, 在3 种算法中,BIRCH 算法运算速度最快, 但准确率最低; DBSCAN 算法聚类性能高于 BIRCH 算法, 但运算速度最慢; 改进的DBIRCH 算法运算效率略低于 BIRCH 算法, 但聚类准确率最高。  相似文献   

13.
详细分析讨论了BIRCH算法中存在的不足,并针对其不足进行一定的改进,提出了一种基于离差平方和的改进多闻值BIRCH算法,充分利用离差平方和来建立簇与簇的相关性,相对于单纯以簇之间的中心距离来建立相关性有一定的改进,同时在分裂因子的确定上采用了簇中直径的最大值,克服因采用经验值确定分裂因子的缺陷.最后,引入到基因序列图形表达数据聚类分析应用中.  相似文献   

14.
基于遗传和蚁群算法融合的聚类新方法   总被引:1,自引:0,他引:1  
遗传算法具有快速良好的全局搜索能力,而蚁群聚类算法具有良好的分布式并行性和正反馈能力。将两种算法进行融合,充分利用算法各自的优势和特点,能更有效地进行聚类分析。实验证明这种新组合算法在优化能力和时间性能上比常用的聚类算法有比较明显的优势。  相似文献   

15.
为解决传统 K-means 算法中因初始聚类中心选择不当而导致聚类结果陷入局部极值的问题, 采用蝙蝠算法搜寻 K-means 算法的初始聚类中心, 并将模拟退火的思想和基于排挤的小生境技术引入到蝙蝠算法中, 以克服原始蝙蝠算法存在后期收敛速度慢、 搜索力不强等问题。 同时, 通过测试函数验证了其有效性。 最后利用改进后的蝙蝠算法优化 K-means 算法的初始聚类中心, 并将该改进的算法与传统的 K-means 算法的聚类结果进行了对比。 实验结果表明, 改进后的算法的聚类性能比传统的 K-means 算法有很大提高。  相似文献   

16.
针对传统的社区发现算法无法发现社区中的核心成员和边界成员的缺点,提出了基于PCM聚类算法的Blog社区发现算法,用来识别Blog社区的核心和边界.首先,使用随机行走的方法计算可以衡量两个Blog亲密度的对称社会距离;然后,在对称社区距离的基础上使用PCM聚类算法对Blog进行聚类,得到每个社区中的成员属于社区的概率表示.最后,通过确定相应的概率阈值,确定社区的核心和边界.实验结果表明:该算法能够获得社区中的成员属于社区的概率,根据这个概率可以确定社区中的核心成员和边界成员.  相似文献   

17.
针对原始K-means算法的一系列问题,提出一种基于半监督的K-means聚类改进算法,能够自动进行聚类,找出最优K值,并且最大限度地找出孤立点.首先根据样本集自身的特点,按照"类内尽可能相似"原则一步一步形成数据集,然后对数据集进行"去噪"与合并相似簇,最后,利用少量的标记信息指导和修正聚类结果.在UCI的多个数据集...  相似文献   

18.
张选平  祝兴昌  马琮 《西安交通大学学报》2007,41(12):1387-1390,1395
针对基于密度的聚类算法由高密度区到低密度区的处理顺序所带来的不能识别低密度对象类别的缺陷,通过对聚类过程中可能存在的边界识别进行讨论,提出了一种基于边界识别的聚类算法.该算法的思想是:同簇优先权高于密度优先权,即在选择下一个对象进行聚类时,在已聚类的对象中优先选择同一簇的对象,当对象沿某一方向扩展到达簇边界时停止扩展,转而向其他方向扩展,这种处理顺序能使得类别最大化.通过分析簇边界的密度变化特征,建立了边界识别准则,并根据该准则对数据进行聚类.通过在合成数据和美国加州大学提供的知识挖掘数据库数据集上的实验结果表明,所提算法能有效地处理低密度区域的数据,与识别聚类结构的对象排序算法相比,聚类效果可提高4%左右,而时间性能相当.  相似文献   

19.
孟岩  刘希玉  李镇 《山东科学》2007,20(5):48-52
针对模糊C-均值本文提出将基于蚁群算法的模糊聚类算法应用于文本聚类中,聚类采用二级结构,蚁群算法(ACA)作为一级结构,模糊C-均值聚类FCM用于二级结构。将此算法对文本集合进行聚类实验,并用分离系数、分离熵来判断模糊划分的效果,实验结果表明,与FCM相比,该算法具有较好的聚类效果。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号