首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 218 毫秒
1.
针对传统K-means算法的聚类结果依赖初始聚类中心的缺陷,提出了一种基于密度的改进K-means聚类算法,该算法选择位于数据集样本密集区且相距较远的数据对象作为初始聚类中心,实现K-means聚类。针对PAM算法时间复杂度高,且不利于大数据集处理的缺陷,提出了一种基于密度的改进K-medoids聚类算法,在选取初始中心点时根据数据集样本的分布特征选取,使得初始中心点位于不同类簇。UCI机器学习数据库数据集和随机生成的带有噪音点的人工模拟数据集的实验测试证明,基于密度的改进K-means算法和基于密度的改进Kmedoids算法都具有很好的聚类效果,运行时间短,收敛速度快,有抗噪性能。  相似文献   

2.
针对传统K-means算法随机选择初始聚类中心容易造成聚类结果不稳定且准确率低等问题,基于拟蒙特卡洛(Quasi-Monte Carlo,QMC)方法提出一种新的初始聚类中心确定方法;该算法利用QMC序列分布的超均匀性特点,对整个样本空间中的样本分布进行采样估计;基于k近邻距离(k-distance)对QMC序列点进行加权的K-means聚类,得到初始聚类中心。该算法的计算复杂度为O(max(d、n)logn),其中d、n分别表示样本数据的维数和数量;在人工数据和实际数据集上的仿真实验表明,该算法能选择更优的初始聚类中心,有效降低K-means算法的迭代次数,提高聚类的准确性、鲁棒性和收敛速度。  相似文献   

3.
FCM聚类算法具有线性的时间复杂度,但它对初始化非常敏感。而k-中心点轮换法对初始化不太敏感,但其缺点就是时间复杂度较高,不能直接应用到海量数据集的聚类分析中。为克服这两类聚类算法的缺点,而充分利用它们的优点,很自然地提出一种基于近似类抽样的组合聚类算法。这种组合聚类算法的时间复杂度是O(n2m)。仿真实验表明,它具有稳定的聚类结果。  相似文献   

4.
一种基于网格的层次聚类算法   总被引:1,自引:0,他引:1  
传统的凝聚层次聚类算法的时间复杂度为O(n3),由于时间复杂度太高而无法应用到大的数据集.针对这一问题,提出了一种新的基于网格的层次聚类算法,先用基于网格的方法进行一次微聚类,然后再用凝聚的层次聚类算法进行聚类.在进行凝聚的层次聚类时,提出了一种新的簇间距离度量方法,该方法采用簇中权值最高的代表点的最小距离作为簇间的距离.理论分析和实验结果表明,基于网格的层次聚类算法比传统的凝聚层次算法具有更高的效率和正确性.  相似文献   

5.
一种基于密度的启发性群体智能聚类算法   总被引:3,自引:0,他引:3  
提出一种基于密度的启发性群体智能聚类算法.针对以往群体智能聚类算法中分类错误率较高、算法运行时间较长等不足,提出记忆体方法和基于密度的先行(look ahead)策略.用人工数据集和真实数据集进行实验,将实验结果进行比较分析.分析结果表明,基于密度的启发性群体智能聚类算法能够得到令人满意的聚类结果,其分类错误率和运行时间明显小于其它聚类算法.  相似文献   

6.
为解决实时分析处理的海洋 Argo 浮标剖面观测数据特有的数据密度较高、快速响应且需要识别任意形状簇等问题, 提出了一种可通过单次扫描数据集进行有效处理的低复杂度聚类算法 DBIRCH( Density-BasedBalanced Iterative Reducing and Clustering Using Hierarchies)。 该算法通过使用新引入的参数密度阈值修正因子,动态的更新限制 CF(Clustering Feature)树生长的约束系数子空间阈值, 同时结合密度关联思想在不同邻域内多次建立 CF 树且合并, 最终以核心 CF 树子节点为聚类结果输出, 避免了 BIRCH(Balanced Iterative Reducing and Clustering Using Hierarchies)算法对参数的过度依赖, 同时因能处理任意形状簇从而提升了数据处理的整体鲁棒性, 提高了处理 Argo 剖面监测数据的时效性和算法的整体吞吐速度。 为测试算法的综合性能, 使用真实 Argo浮标剖面实时监测数据集, 并根据不同的参数对算法做出多组对比实验, 同时使用不同评价指标对算法从运行时间和聚类准确率上进行综合评估, 从全局角度分析该算法在 DBSCAN(Density-Based Spatial Clustering of Applications with Noise)、 BIRCH 及 DBIRCH 3 种不同算法中综合聚类性能最优。 实验结果表明, 在3 种算法中,BIRCH 算法运算速度最快, 但准确率最低; DBSCAN 算法聚类性能高于 BIRCH 算法, 但运算速度最慢; 改进的DBIRCH 算法运算效率略低于 BIRCH 算法, 但聚类准确率最高。  相似文献   

7.
混合属性数据聚类融合算法   总被引:5,自引:0,他引:5  
混合属性数据集是现实世界特别是商业金融数据库中最普遍的数据集类型,但适用于这类数据集的聚类算法极少。该文根据聚类融合的方法体系,针对混合属性数据集的特点,提出了基于聚类融合的混合属性特征聚类算法(CEM C),建立了算法框架,列出了算法目标函数和算法主要步骤,并分析了算法复杂度。该算法可以有效处理混合属性海量数据集。用真实数据集验证了算法,并将此算法应用于实际的客户关系管理数据分析中,得到了较好效果。  相似文献   

8.
极大网络寿命的认知无线电网络自组网算法   总被引:1,自引:0,他引:1  
根据认知无线电网络的特点,提出一种将鱼群算法与图论中极小独立支配集相结合的最大化网络寿命的认知无线电网络自组网算法.该算法分为鱼群大小确定阶段和簇头选举阶段,前者以极小的能量完成节点配置和确定受影响的认知用户范围,后者确保以极小的能量进行通信,极大化网络寿命和簇头选举的公平性.仿真结果表明,该算法的整体消息复杂度为O(n),最坏时间复杂度为O(lg(D+n)),性能优于极大权极小独立支配集MWM IDS算法,可应用于认知无线电网络协议的设计中,以延长网络寿命.  相似文献   

9.
针对传统生物地理优化算法(bio-geographic optimization algorithm,BBO)的种群随机初始策略会降低聚类算法性能的问题,提出了一种基于自组织映射算法(self-organization feature map,SOM)和BBO的混合聚类算法(improved SOM and bio-geography optimization,ISOMBBO),通过优化初始化神经元权值的方法改进SOM算法,然后以改进的SOM来计算数据聚类的初始簇中心,最后在BBO优化框架下进行数据簇结构的寻优.在4个标准数据集(Iris、Wine、Glass与Diabetes)的实验中,实验结果表明该算法不仅提高聚类的有效性,而且相对于传统的优化算法具有更好的优化能力和收敛度.  相似文献   

10.
一种改进的基于密度和样本数量的K-means算法   总被引:1,自引:0,他引:1  
对原始K-means算法进行了研究,通过改进,算法能够自动找出合适的k值,并且最大限度的找出孤立点。首先,寻找样本容量的最大可能初始聚类数n。然后做样本圆,将样本圆等分为n份,依据样本点的位置将样本归属到相应的份里,对初始的n个类进行聚类。最后通过应用DBSCAN算法的小类合并策略将需要合并的小类进行了合并。为了测试改进算法的聚类性能,将改进后的算法源码放在新西兰怀卡托大学所开发的开源平台"weka"上,在多个数据集上与原始K-means算法进行了对比实验,验证了改进算法在聚类质量和聚类稳定性上都远优于原始K-means算法。  相似文献   

11.
提出一种MapReduce框架下基于抽样的分布式K-Means聚类算法,解决海量数据环境下并行执行K-Means算法时,时间开销较大的问题.该算法使用抽样方法,在保证数据分布不变的前提下,对数据集的规模进行约减,并在MapReduce框架下对聚类算法进行优化.实验结果表明,该算法在保持良好聚类效果的同时,能有效缩短聚类时间,对大规模数据集具有较高的执行效率和较好的可扩展性.  相似文献   

12.
针对密度峰值聚类(DPC)算法在处理结构复杂、 维数较高以及同类中存在多个密度峰值的数据集时聚类性能不佳的问题, 提出一种基于K近邻和多类合并的密度峰值聚类(KM-DPC)算法. 首先利用定义的密度计算方法描述样本分布, 采用新的评价指标获取聚类中心; 然后结合K近邻思想设计迭代分配策略, 将剩余点准确归类; 最后给出一种局部类合并方法, 以防将包含多个密度峰值点的类分裂. 仿真实验结果表明, 该算法在22个不同数据集上的性能明显优于DPC算法.  相似文献   

13.
提出了一种基于相对熵和子空间二次过滤的CLIQUE改进算法。该算法根据数据的分布情况对每一维采用自适应的网格划分方法,减少了全空间中网格单元的数量,降低了算法的时间复杂度。算法采用了基于维关联度的子空间二次过滤策略,提高了聚类结果的准确性。实验使用仿真数据表明,该算法在精度,时间复杂性等方面的表现优越。  相似文献   

14.
在借鉴空间数据挖掘技术的基础上,定义了移动对象轨迹之间的时态距离和平均距离,提出了标准差法和置信区间法两种轨迹聚类算法。两种方法能够找出所有具有相似轨迹的对象对,在不同距离采样点数的基础上配合使用两种方法能够明显降低轨迹聚类算法的时间复杂度。基于标准差法和置信区间法的轨迹聚类算法在仿真数据集和真实数据集进行了验证。表明两种方法能够为其他轨迹聚类算法进行数据筛选,筛选后的数据量将大大减少,从而可提高算法效率。  相似文献   

15.
Graph clustering, i.e., partitioning nodes or data points into non-overlapping clusters, can be beneficial in a large varieties of computer vision and machine learning applications. However, main graph clustering schemes, such as spectral clustering, cannot be applied to a large network due to prohibitive computational complexity required.While there exist methods applicable to large networks, these methods do not offer convincing comparisons against known ground truth. For the first time, this work conducts clustering algorithm performance evaluations on large networks(consisting of one million nodes) with ground truth information. Ideas and concepts from game theory are applied towards graph clustering to formulate a new proposed algorithm, Game Theoretical Approach for Clustering(GTAC). This theoretical framework is shown to be a generalization of both the Label Propagation and Louvain methods, offering an additional means of derivation and analysis. GTAC introduces a tuning parameter which allows variable algorithm performance in accordance with application needs. Experimentation shows that these GTAC algorithms offer scalability and tunability towards big data applications.  相似文献   

16.
针对传统模糊聚类算法需提前设置参数和初始聚类中心, 导致聚类结果不稳定的问题, 提出一种基于权重差异度的动态模糊聚类算法. 首先引入样本特征权重向量和样本间差异度的概念, 对数据集分布情况进行描述, 并采用新的评价指标获取候选聚类中心; 然后根据最小差异度准则, 对剩余样本点进行分类; 最后结合Davies-Bouldin指数(DBI)评价准则对候选聚类中心做进一步筛选与合并. 实验结果表明, 该算法在不同测试数据集上的性能明显优于传统聚类算法, 具有更高的自适应性和稳定性.  相似文献   

17.
一种基于密度和网格的高效聚类算法   总被引:1,自引:0,他引:1  
聚类已成为数据挖掘的主要方法之一,能够帮助人们在大量的数据中发现隐藏信息.目前最具典型的密度聚类算法是DBSCAN(density-based spatial clustering of applications with noise),它能够在空间数据库中很好地发现任意形状的簇并有效地处理噪声,但是它的计算复杂度相对较大.因此,采用划分数据集和聚簇合并方法,提出了一种基于密度和网格的高效聚类算法DGCA,并通过人工合成数据集和真实数据集对该聚类算法进行理论验证.实验结果表明该算法在效率性能和质量方面比DBSCAN都得到了提高.  相似文献   

18.
基于潜在空间学习的多视图聚类研究得到了较大发展,但其通常忽略了原始数据中冗余信息的存在可能会带来不理想的聚类结果。为解决这个问题,提出一种潜在表示学习框架下的低冗余多视图聚类算法。基于k-means的方法,直接从各视图数据学习其低维表示,由于该低维表示的各个特征相互正交,学习到的低维表示通常含有较少的冗余信息。基于潜在空间的假设,各视图的低维表示可由同一个潜在表示投影得到。将两者结合,就能得到一个具有低冗余信息的统一的潜在表示。设计了一个优化算法来求解目标问题,在多个公开数据集上的实验表明了该算法的有效性。  相似文献   

19.
数据集的质量会极大地影响分类算法的精度,针对一类隐式互斥的数值型数据提出了一致性分类方法.借鉴连续函数的思想,提出了数值型连续数据的分类一致性定义;改进了SOM算法的计算过程,使其满足文中提出的分类一致性最优条件.通过改进的SOM方法得到一个新的聚类数据集,减少了原始数据集中容易出现的隐式分类不一致性问题,从而有效地提高了分类方法的效率和分类精度.通过在一个实际的数据集上的比较,表明提出的算法的预测精度明显优于其他算法.进而还从VC维的角度分析了提出算法的优点.  相似文献   

20.
聚类已成为数据挖掘的主要方法之一,能够帮助人们在大量的数据中发现隐藏信息。目前最具典型的密度聚类算法是DBSCAN(density-based spatial clustering of applications with noise),它能够在空间数据库中很好地发现任意形状的簇并有效地处理噪声,但是它的计算复杂度相对较大。因此,采用划分数据集和聚簇合并方法,提出了一种基于密度和网格的高效聚类算法DGCA,并通过人工合成数据集和真实数据集对该聚类算法进行理论验证。实验结果表明该算法在效率性能和质量方面比DBSCAN都得到了提高。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号