首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 15 毫秒
1.
聚类集成的目标是通过集成多个聚类结果来提高聚类算法的稳定性、鲁棒性以及精度.近些年,聚类集成受到了越来越多的关注.现有的集成聚类通常平等地对待所有基聚类,而不考虑它们的重要度.虽然学者们已经在这一方面做出了一些努力,例如使用加权策略来改进共协关系矩阵,但无论是给基聚类加权还是对类重要度评价时都忽略了样本对于其所在类贡献的差异.为此,提出了基于样本对加权共协关系矩阵的聚类集成算法,该算法利用k-means算法产生多个基聚类结果,然后对于其中的每个类再利用k-means算法产生多个小类,并计算去掉样本对所在的小类后类的不确定性变化的程度来评价该样本对的重要度,最后通过层次聚类算法得到聚类结果 .在六个UCI数据集上的实验结果表明,基于样本对加权共协关系矩阵的聚类集成算法的性能优于三种经典的基于共协关系矩阵的聚类集成算法.  相似文献   

2.
针对现有的集成聚类算法通常默认使用K-means算法作为基聚类生成器,虽能确保聚类成员的多样性,却忽视了差的基聚类可能会对最终聚类结果造成极大干扰的问题,提出一种基于聚类质量的两阶段集成算法.鉴于K-means算法运行高效但聚类质量较粗糙,提出首先在生成阶段采用K-means算法生成基聚类成员,然后通过群体一致性度量筛选出兼具高质量和强多样性的聚类成员,形成候选集成;其次,进一步在集成阶段应用信息熵知识构建基聚类加权的共协矩阵;最后应用一致函数得到最终聚类结果.采用3个指标在10个真实数据集上进行对比实验,实验结果表明,该算法在有效提升聚类结果准确度的同时,能保持较好的鲁棒性.  相似文献   

3.
聚类集成是集成学习中的一个重要分支,其目标是解决无监督聚类分析中聚类算法的选择性、偏差性与数据特殊性等导致聚类结果不理想的问题。文章提出了一种基于数据关联的聚类集成方法(CEBDR),该算法先提取出在聚类成员中体现有关联关系的数据对象来组成新的类,然后对这些类进行二次聚类得到最终的集成结果。文中选用了一些标准数据集,采用CEBDR算法、已有的基聚类和聚类集成算法来进行对比实验,实验结果表明,该算法能够有效地提高聚类质量。  相似文献   

4.
聚类集成是聚类分析中的一个重要技术手段,能有效地提高聚类结果的准确性、鲁棒性和稳定性。利用现有的聚类准则提出了一个新的评价指标,用于基聚类结果的有效性评估,并把评估值作为基聚类结果的权重来进行加权聚类集成。在UCI真实数据集上对提出的基于聚类准则融合的加权聚类集成算法进行了测试,实验表明新提出的算法比已有的集成聚类算法具有更高的准确率和回收率,可以得到更好的集成聚类结果。  相似文献   

5.
谱聚类是利用样本数据集的相似性矩阵中特征向量的性质对样本数据集进行聚类.而随着数据规模的增加,谱聚类算法所耗时间会因为大规模的特征分解而明显增大.采用抽样方法可以有效降低算法所耗时间,但是简单随机抽样子集之间关联性太弱,通常无法准确反映数据集的分布特征.基于此,设计了一种新的抽样策略,利用该方法进行多次抽样,生成多个既具有关联性又具有差异性的数据子集.在每个数据子集上分别利用NJW算法(由Ng A Y、Jordom M I和Weiss Y提出)进行谱聚类,并根据最近邻原则将聚类结果映射到全体数据集,生成若干基聚类,最后,将聚类结果集成,得到最终的聚类划分.实验证明,该方法与传统NJW算法以及简单抽样集成算法相比,算法的效率及有效性有了一定的提高.  相似文献   

6.
基于集成学习的思想,提出一种分布式聚类模型.该模型的分布式处理过程分为2个阶段:先在局部站点局部聚类,然后在全局站点全局聚类.局部站点的局部聚类看作是一种基于数据子集的学习过程,所有的局部聚类结果组成了聚类集成系统的个体学习器,全局聚类采用平均法对局部结果进行集成,并定义了一个准则函数来度量集成的精度.把K-means算法推广到分布式环境,提出一种基于该模型的分布式K均值算法DK-means,该算法对局部数据的分布有较强的伸缩性.实验结果表明,DK-means在同等条件下能达到集中式聚类的精度水平,是有效可行的,从而验证了基于集成学习的分布式聚类模型的有效性.  相似文献   

7.
针对K均值聚类随机初始聚类中心导致的聚类结果不稳定问题,提出一种基于仿射传播的聚类集成算法.该算法把每个聚类集成的成员个体结果看成是原始数据的一个属性,然后在其基础上对聚类成员个体的聚类结果进行加权集成,集成算法采用简单高效的仿射传播聚类,并且提出了直接集成、利用平均规范化互信息(NMI)和聚类有效性Silhouette指标进行加权集成.最后,运用Hungarian算法对仿射传播聚类集成的结果进行类别标签的统一和匹配.在加州大学尔湾分校数据集上进行了实验,结果表明,与集成前的K均值聚类及其他聚类集成算法相比,该算法能有效地提高聚类结果的准确性、鲁棒性和稳定性,建立起来的聚类集成算法具有良好的扩展性和灵活性,而且简单有效.  相似文献   

8.
研究了基于聚类技术提高分类器差异性的方法.通过Bootstrap技术与分类器学习算法训练分类器模型,利用分类器在验证集上的分类结果作为聚类的数据对象;然后应用聚类算法对这些数据聚类,并在每个簇中选择分类器代表模型,以此构成集成学习的成员;最后应用融合方法实验研究了基于聚类技术提高差异性的集成学习性能,并与集成学习方法bagging,adaboost进行了实验比较.  相似文献   

9.
柳炳祥 《科学技术与工程》2013,13(19):5536-5542
提出了一种新的基于双重采样的选择性集成学习算法。针对集成学习要求学习器个体的差异性分布在样本空间的不同部分,对得到的聚类个体学习器输出进行重采样,以此来计算聚类个体的差异性。针对集成学习要求得到的个体学习器具有一定的精确性,对所有得到的学习器个体集合进行重采样来评估聚类个体精确性。在此基础上选择出集成学习所需的个体集合。以谱聚类算法作为基学习器,用聚类集成策略部分解决了谱聚类算法存在的尺度参数敏感问题,在UCI数据集上的仿真实验验证了算法的有效性。  相似文献   

10.
将三支聚类思想和聚类集成思想相结合,提出一种基于样本相似度的三支聚类算法.首先,通过随机选择样本部分特征的方法生成一组基聚类成员,以此构造样本相似度,并在此基础上定义划分有效性指标,用以自动计算最优阈值;其次,使用投票法对基聚类成员集成得到初步的聚类结果;最后,利用最优阈值对聚类结果划分,得到每个类的核心域集合和边界域集合.UCI(University of California Irvine)数据集上的实验结果证明了所提出方法的有效性.  相似文献   

11.
智能服务的供需匹配是一个复杂过程,如何获得准确的服务聚类结果,是提高匹配准确性的重要环节.利用群体智慧理论,将多个相互独立的聚类结果进行聚合,能够显著提高聚类结果的纯度和查全率.提出一种基于群体智慧的服务聚类方法,首先利用群体智慧理论的独立性、分散性、多样性引导基聚类结果的生成.进一步采用群体智慧的聚集性,提出一种基于权重的基聚类集成机制,对基聚类结果进行聚合,得到最终服务聚类结果.在Web服务数据集下进行实验,结果表明,与传统的基于k-means算法的服务聚类方法相比,提高了服务聚类的纯度和查全率.  相似文献   

12.
聚类集成的目的是通过集成多个不同的基聚类来生成一个更好的聚类结果,近年来研究者已经提出多个聚类集成算法,但是目前仍存在的局限性是这些算法大多把每个基聚类和每个簇都视为同等重要,使聚类结果很容易受到低质量基聚类和簇的影响.为解决这个问题,研究者提出一些给基聚类加权的方法,但大多把基聚类看作一个整体而忽视其中每个簇的差异....  相似文献   

13.
针对k-prototype算法在处理复杂的数据集时,常出现一些纯度不高的簇,影响了聚类质量的问题,提出一种基于k-prototype的多层次聚类改进算法,利用属性自动选择的方法将一些纯度不高的簇进行再聚类,以提高聚类质量.以UCI标准测试数据集进行实验,实验结果表明,该改进算法能够明显提高混合型数据集的聚类质量,并且在数据约简方面有良好表现.  相似文献   

14.
针对大规模不确定性数据聚类,提出一种新的基于Spark的三支聚类集成方法.该方法包括3个步骤:首先,将现有的聚类算法进行基于Spark的分布式处理;然后,以第1个聚类成员的聚类结果作为参照划分,对剩余聚类成员中的类簇做标签对齐;最后,利用投票法以及三支决策规则对标签对齐后的聚类成员进行集成,得到最终的三支聚类结果.实验结果显示,本方法能够有效处理大规模不确定性数据,相比传统基于Spark的聚类算法效率更高.  相似文献   

15.
深度聚类在高维较大数据集中应用广泛,得益于神经网络强大的数据特征提取能力,但目前的深度聚类特征提取一般集中在神经网络的中间层,忽略了浅层特征的有用信息.为解决上述问题,提出一种基于神经网络多层特征提取的集成聚类算法(Deep Ensemble Clustering Based on Multi-Level Features,DCMLF),使用三个只有卷积层数不同而其他参数相同的网络结构提取同一个输入的不同层次特征,并进行集成聚类.通过不同层次特征组合实验验证浅层特征对聚类结果的影响,并证明该算法同经典的传统聚类算法以及经典的深度聚类算法相比,聚类性能有所提升.  相似文献   

16.
图像聚类是当前的研究热点,非负矩阵分解(non-negative matrix factorization, NMF)算法在图像聚类领域得到了广泛应用。但是单一的NMF算法无法应用于所有数据集,并且NMF算法直接在数据的原始空间进行处理,抗噪能力较差。集成聚类可以解决上述问题,集成聚类将若干个基础聚类结果合成一个一致性结果,不仅可以提高聚类的求解质量,还可以增强算法的鲁棒性。因此本文提出一种层次预处理的NMF加权集成聚类算法。该算法将层次划分、集成聚类和二部图的思想引入到NMF算法中。在预处理阶段,利用层次划分得到聚类数目。之后采用局部加权的方法得到协关联矩阵。最后利用基于二部图的一致性函数进行划分得到最终的聚类结果。在5个数据集上进行实验,验证了本文算法相对于传统算法和其他集成算法的有效性。  相似文献   

17.
提出一种新的基于非负矩阵分解(NMF)方法的聚类组合算法(NMFCCA).该算法首先采用K-均值算法作为基聚类器,然后使用NMF方法从基聚类器输出结果中提取数据对象的关键特征,最后在关键特征空间中划分数据对象,生成最终结果.在人工数据集和真实数据集上的实验表明,所提出的算法是有效可行的.  相似文献   

18.
几千年来,中医药领域的无数临床实践与理论研究积累了很多对哮喘病的治疗方剂,已有的基于距离的聚类算法在对哮喘方剂数据的聚类上不太有效.根据哮喘药方数据集高维稀疏性的特点提出一种基于最大频繁项集的层次聚类算法,此算法在哮喘方剂的聚类上取得了较好的效果.基于现有中药数据,设计并实现一个中药方剂数据挖掘平台,该平台将中药数据检索功能和中药数据挖掘功能集成起来,带来了极大的便利.  相似文献   

19.
针对各类网络数据中存在着大量的无标记数据,导致了SNS(social network service)隐私保护中数据可用性相对较差的问题,本文提出一种基于Bagging的ELM(extreme learning machine)集成算法,并将其与基于Seeds集的半监督聚类算法相结合应用于隐私保护.该算法首先利用ELM-Bagging集成方法对无标记数据进行标记,并将新标记的数据加入Seeds集以扩大其规模,然后采用基于Seeds集的半监督聚类实现K-匿名.实验结果表明,该算法在有效保护隐私的同时,提高了发布数据的可用性.  相似文献   

20.
为同时保证基分类器的准确性和差异性, 提出一种基于聚类和AdaBoost的自适应集成算法. 首先利用聚类算法将训练样本分成多个类簇; 然后分别在每个类簇上进行AdaBoost训练并得到一组分类器; 最后按加权投票策略进行分类器的集成. 每个分类器的权重是自适应的, 且为基于测试样本与每个类簇的相似性及分类器对此测试样本的分类置信度计算得到. 实验结果表明, 与AdaBoost,Bagging(bootstrap aggregating)和随机森林等代表性集成算法相比, 该算法可取得更高的分类精度.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号