首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 0 毫秒
1.
谱聚类是利用样本数据集的相似性矩阵中特征向量的性质对样本数据集进行聚类.而随着数据规模的增加,谱聚类算法所耗时间会因为大规模的特征分解而明显增大.采用抽样方法可以有效降低算法所耗时间,但是简单随机抽样子集之间关联性太弱,通常无法准确反映数据集的分布特征.基于此,设计了一种新的抽样策略,利用该方法进行多次抽样,生成多个既具有关联性又具有差异性的数据子集.在每个数据子集上分别利用NJW算法(由Ng A Y、Jordom M I和Weiss Y提出)进行谱聚类,并根据最近邻原则将聚类结果映射到全体数据集,生成若干基聚类,最后,将聚类结果集成,得到最终的聚类划分.实验证明,该方法与传统NJW算法以及简单抽样集成算法相比,算法的效率及有效性有了一定的提高.  相似文献   

2.
基于集成学习的思想,提出一种分布式聚类模型.该模型的分布式处理过程分为2个阶段:先在局部站点局部聚类,然后在全局站点全局聚类.局部站点的局部聚类看作是一种基于数据子集的学习过程,所有的局部聚类结果组成了聚类集成系统的个体学习器,全局聚类采用平均法对局部结果进行集成,并定义了一个准则函数来度量集成的精度.把K-means算法推广到分布式环境,提出一种基于该模型的分布式K均值算法DK-means,该算法对局部数据的分布有较强的伸缩性.实验结果表明,DK-means在同等条件下能达到集中式聚类的精度水平,是有效可行的,从而验证了基于集成学习的分布式聚类模型的有效性.  相似文献   

3.
为同时保证基分类器的准确性和差异性, 提出一种基于聚类和AdaBoost的自适应集成算法. 首先利用聚类算法将训练样本分成多个类簇; 然后分别在每个类簇上进行AdaBoost训练并得到一组分类器; 最后按加权投票策略进行分类器的集成. 每个分类器的权重是自适应的, 且为基于测试样本与每个类簇的相似性及分类器对此测试样本的分类置信度计算得到. 实验结果表明, 与AdaBoost,Bagging(bootstrap aggregating)和随机森林等代表性集成算法相比, 该算法可取得更高的分类精度.  相似文献   

4.
一种基于灰色聚类和模糊聚类的集成方法   总被引:2,自引:0,他引:2  
根据灰色聚类,模糊聚类,关联系数原理,提出一种新的综合集成方法,利用灰色关联系数将灰色聚类与模糊聚类集成,使聚类结果不仅反映了各聚类对象所属灰类的信息,还有效显化了各个对象间的相互关系的信息.  相似文献   

5.
随机子空间聚类集成通过属性随机采样产生属性子空间,并将子空间上的基聚类结果进行集成得到最终聚类结果.在这一过程中,子空间产生的随机性虽然为聚类集成提供了很大的差异度,但是无法保证基聚类结果的有效性,这是因为随机产生的子空间有可能只包含极少的重要属性.针对这一不足,提出了一种带核随机子空间生成策略:首先依据粗糙集理论中的互补互信息选出对于刻画数据集整体信息至关重要的属性子集,作为每个属性子空间的"核心",再从剩余属性集中随机选择一定数量的属性与核心属性共同构成聚类子空间.这种策略在兼顾子空间之间差异性的同时也提高了每个属性子空间对数据整体信息的刻画能力,从而得到更好的聚类集成结果.在大量UCI数据集上的实验证实了所提方法的合理性和有效性.  相似文献   

6.
将万有引力和牛顿第二运动定律的思想引入到聚类分析中,提出了一种基于引力的聚类算法CABG.该算法可以自动决定目标数据集中的簇的个数,并且能发现任意形状的簇且可以过滤“噪声”数据.实验结果表明CABG可以产生高质量的聚类结果.  相似文献   

7.
聚类集成是聚类分析中的一个重要技术手段,能有效地提高聚类结果的准确性、鲁棒性和稳定性。利用现有的聚类准则提出了一个新的评价指标,用于基聚类结果的有效性评估,并把评估值作为基聚类结果的权重来进行加权聚类集成。在UCI真实数据集上对提出的基于聚类准则融合的加权聚类集成算法进行了测试,实验表明新提出的算法比已有的集成聚类算法具有更高的准确率和回收率,可以得到更好的集成聚类结果。  相似文献   

8.
聚类集成是集成学习中的一个重要分支,其目标是解决无监督聚类分析中聚类算法的选择性、偏差性与数据特殊性等导致聚类结果不理想的问题。文章提出了一种基于数据关联的聚类集成方法(CEBDR),该算法先提取出在聚类成员中体现有关联关系的数据对象来组成新的类,然后对这些类进行二次聚类得到最终的集成结果。文中选用了一些标准数据集,采用CEBDR算法、已有的基聚类和聚类集成算法来进行对比实验,实验结果表明,该算法能够有效地提高聚类质量。  相似文献   

9.
基于聚类算法的选择性神经网络集成   总被引:11,自引:0,他引:11  
为了提高集成个体的差异度,提出了一种利用聚类算法去除冗余个体的选择性集成方法,该方法通过使用神经网络作为基学习器,并在多值分类数据集上进行实验.结果表明,该技术计算效率高,精度与稳健性也与基于遗传算法的选择性集成方法相当甚至占优.  相似文献   

10.
基于图的标签传播算法是半监督学习中的研究热点之一,其性能很大程度依赖于图的质量.为了应对这一问题,文章提出了基于聚类的标签集成传播算法.该算法对样本集进行多次聚类,在每次聚类产生的簇中,利用互补熵度量簇内样本标签的混乱程度,并在混乱程度较小的簇中进行标签传播,当一个未标记样本获得某个标签的次数与聚类次数的比值大于50%...  相似文献   

11.
聚类集成的目的是通过集成多个不同的基聚类来生成一个更好的聚类结果,近年来研究者已经提出多个聚类集成算法,但是目前仍存在的局限性是这些算法大多把每个基聚类和每个簇都视为同等重要,使聚类结果很容易受到低质量基聚类和簇的影响.为解决这个问题,研究者提出一些给基聚类加权的方法,但大多把基聚类看作一个整体而忽视其中每个簇的差异....  相似文献   

12.
针对传统聚类算法无法解决区间型数据聚类的问题,文章提出一种基于区间核的聚类算法(Clustering method based on interval kernel,IK-clustering,IK-C)。该方法首先求解区间型数据的区间中值和区间宽度,结合区间宽度和区间中值构造区间核,并采用平衡因子调节二者所占的比重,以有效衡量两个区间型样本的相似性,从而构造区间数据聚类算法。实验结果表明,文章提出的基于区间核的聚类算法在聚类均方差测度上比传统其他区间型数据聚类算法减小了0.019-0.132,说明本文提出的方法能够对区间型数据进行更为有效的聚类,得到了较好的聚类结果。  相似文献   

13.
针对DBSCAN算法I/O开销和内存消耗大的缺陷,提出了基于层次合并的密度算法,基于密度的空间聚类算法可以有效地过滤噪声和孤立点数据,该算法在对于处理较大数据集上具有较大优势。  相似文献   

14.
在传统层次聚类基础上,提出并实现了一种基于距离的增量式聚类算法,并应用于粮食智能决策支持系统中,算法在保持层次聚类优点的基础上,利用原有的聚类结果提高聚类速度,并可以根据用户需要在聚类精度和聚类速度两方面选取一个适当的平衡点,有效地提高聚类分析的效率。  相似文献   

15.
一种基于密度的聚类算法实现   总被引:1,自引:0,他引:1  
基于密度的聚类算法OPTICS是一种大规模数据库的聚类算法,它是基于核心对象和可达距离来实现的.对于每一个核心对象将其邻域内的所有对象按到该核心对象的可达距离进行排序,每次都选择1个到该核心对象具有最小的可达距离的对象进行信息更新.算法实现采用优先队列保存候选对象以加快处理速度,最后用UCI数据集对算法进行聚类效果测试,结果表明OPTICS算法对数据集产生一个基于密度的簇排序结构.  相似文献   

16.
一种基于核的模糊聚类算法   总被引:4,自引:2,他引:4  
结合核技术与改进的模糊c均值算法聚类准则提出一 种基于核的模糊聚类算法. 通过引入核函数, 样本点被非线性变换映射到高维特征空间进行聚类, 提高了聚类性能. 同时, 算法改进了模糊c-均值聚类模型中的概率型约束条件, 使其对噪声和野值点具有较好的鲁棒性. 在真实数据和人造数据上与常用聚类算法进行了对比实验, 结果表明该算法具有较低的时间、 空间复杂度与较好的聚类性能.  相似文献   

17.
在介绍了基于信息熵的蚁群聚类算法以及流形学习的方法的基础上,将基于动态切空间排列的流形学习方法与该蚁群聚类算法相结合,给出了一种聚类算法的新思路,并在城市规划布局问题中做了仿真实验,提高了算法的收敛速度。  相似文献   

18.
一种基于相似性的文档聚类算法   总被引:2,自引:0,他引:2  
针对常见信息检索技术的缺陷,提出一种基于相似性的文档聚类分析算法,将文档集合转化为向量集合,基于向量之间的余弦相似度,采取凝聚的层次聚类算法来获得聚类,给出了算法的详细描述的一个测试实例。  相似文献   

19.
张选平  祝兴昌  马琮 《西安交通大学学报》2007,41(12):1387-1390,1395
针对基于密度的聚类算法由高密度区到低密度区的处理顺序所带来的不能识别低密度对象类别的缺陷,通过对聚类过程中可能存在的边界识别进行讨论,提出了一种基于边界识别的聚类算法.该算法的思想是:同簇优先权高于密度优先权,即在选择下一个对象进行聚类时,在已聚类的对象中优先选择同一簇的对象,当对象沿某一方向扩展到达簇边界时停止扩展,转而向其他方向扩展,这种处理顺序能使得类别最大化.通过分析簇边界的密度变化特征,建立了边界识别准则,并根据该准则对数据进行聚类.通过在合成数据和美国加州大学提供的知识挖掘数据库数据集上的实验结果表明,所提算法能有效地处理低密度区域的数据,与识别聚类结构的对象排序算法相比,聚类效果可提高4%左右,而时间性能相当.  相似文献   

20.
一种基于密度的分布式聚类算法   总被引:1,自引:0,他引:1  
对基于密度的分布式聚类算法DBDC(density based distributed clustering)进行改进,提出了一种基于密度的分布式聚类算法DBDC*.该算法在局部筛选代表点时结合贝叶斯信息准则BIC,得到少量精准反映局部站点数据分布的BIC核心点,有效降低了分布式聚类过程中的数据通信量,全局聚类时综合考虑了各站点数据的分布情况.实验结果表明,算法DBDC*的效率优于DBDC,聚类效果好.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号