首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 250 毫秒
1.
本文主要研究介绍了聚类算法:聚类算法是根据样本空间的相似性来度量的,簇内具有较高的相似度。相似度的计算根据一个簇中对象的平均值来计算。此类算法也有一定的局限性,争对此局限性,提出了改进的聚类算法。  相似文献   

2.
聚类集成的目的是通过集成多个不同的基聚类来生成一个更好的聚类结果,近年来研究者已经提出多个聚类集成算法,但是目前仍存在的局限性是这些算法大多把每个基聚类和每个簇都视为同等重要,使聚类结果很容易受到低质量基聚类和簇的影响.为解决这个问题,研究者提出一些给基聚类加权的方法,但大多把基聚类看作一个整体而忽视其中每个簇的差异....  相似文献   

3.
针对现有的集成聚类算法通常默认使用K-means算法作为基聚类生成器,虽能确保聚类成员的多样性,却忽视了差的基聚类可能会对最终聚类结果造成极大干扰的问题,提出一种基于聚类质量的两阶段集成算法.鉴于K-means算法运行高效但聚类质量较粗糙,提出首先在生成阶段采用K-means算法生成基聚类成员,然后通过群体一致性度量筛选出兼具高质量和强多样性的聚类成员,形成候选集成;其次,进一步在集成阶段应用信息熵知识构建基聚类加权的共协矩阵;最后应用一致函数得到最终聚类结果.采用3个指标在10个真实数据集上进行对比实验,实验结果表明,该算法在有效提升聚类结果准确度的同时,能保持较好的鲁棒性.  相似文献   

4.
将三支聚类思想和聚类集成思想相结合,提出一种基于样本相似度的三支聚类算法.首先,通过随机选择样本部分特征的方法生成一组基聚类成员,以此构造样本相似度,并在此基础上定义划分有效性指标,用以自动计算最优阈值;其次,使用投票法对基聚类成员集成得到初步的聚类结果;最后,利用最优阈值对聚类结果划分,得到每个类的核心域集合和边界域集合.UCI(University of California Irvine)数据集上的实验结果证明了所提出方法的有效性.  相似文献   

5.
一种提高文本聚类算法质量的方法   总被引:1,自引:0,他引:1  
针对基于VSM(vector space model)的文本聚类算法存在的主要问题,即忽略了词之间的语义信息、忽略了各维度之间的联系而导致文本的相似度计算不够精确,提出基于语义距离计算文档间相似度及两阶段聚类方案来提高文本聚类算法的质量.首先,从语义上分析文档,采用最近邻算法进行第一次聚类;其次,根据相似度权重,对类特征词进行优胜劣汰;然后进行类合并;最后,进行第二次聚类,解决最近邻算法对输入次序敏感的问题.实验结果表明,提出的方法在聚类精度和召回率上均有显著的提高,较好解决了基于VSM的文本聚类算法存在的问题.  相似文献   

6.
电力负荷曲线聚类在电力大数据研究中有重要的应用。针对传统负荷聚类方法难以有效处理海量化的高维负荷数据,以及存在簇间样本模糊导致算法聚类质量不高、聚类效率低下等问题,提出一种结合多维缩放(multi-dimensional scaling, MDS)和一种新的集成簇间、簇内欧式距离的加权K-means方法(weighting k-means clustering approach by integrating intra-cluster and inter-cluster distances, KICIC)的聚类算法(MDS-KICIC)。该方法首先采用MDS算法对高维负荷数据进行数据降维处理,得到降维后的低维矩阵和归一化的特征值向量作为KICIC算法的输入矩阵和权重向量,KICIC通过在子空间内最大化簇中心与其他簇数据对象的距离来融合簇内和簇间的距离进行聚类,得到最终聚类结果。通过算例表明该方法运算时间短、聚类质量高,进一步提高了负荷曲线的聚类性能。  相似文献   

7.
建立快速有效的针对大规模文本数据的聚类分析方法是当前数据挖掘研究和应用领域中的一个热点问题.为了同时保证聚类效果和提高聚类效率,提出基于"互为最小相似度文本对"搜索的文本聚类算法及分布式并行计算模型.首先利用向量空间模型提出一种文本相似度计算方法;其次,基于"互为最小相似度文本对"搜索选择二分簇中心,提出通过一次划分实现簇质心寻优的二分K-means聚类算法;最后,基于MapReduce框架设计面向云计算应用的大规模文本并行聚类模型.在Hadoop平台上运用真实文本数据的实验表明:提出的聚类算法与原始二分K-means相比,在获得相当聚类效果的同时,具有明显效率优势;并行聚类模型在不同数据规模和计算节点数目上具有良好的扩展性.  相似文献   

8.
子空间聚类是一种将搜索局部化在相关维上进行的聚类算法,它能有效地克服数据因维度过高引起的在全空间上聚类的困难.针对高维分类型数据,本文提出了一种自底向上的子空间层次聚类算法,该算法在全局范围内建立一个最相似线性表用来记录每个簇类与其最相似的簇类的相似度,在聚类过程中,选取最相似的簇类合并,并通过维护此线性表产生最相似的簇类.此算法在基于信息熵的意义上能够较准确地搜索簇类的子空间.通过Zoo和Soybean两个典型的分类型数据实验发现,相对于其它相关聚类算法,该算法在聚类的准确率和稳定性方面表现出较高的优越性.  相似文献   

9.
基于局部线性嵌入的半监督仿射传播聚类算法   总被引:1,自引:0,他引:1  
针对运用半监督仿射传播聚类算法处理高维数据时聚类精度低和计算量大的问题,提出一种基于局部线性嵌入的半监督仿射传播聚类算法.该算法首先通过LLE算法将高维输入数据集映射到低维空间得到低维数据集,计算低维数据集的相似度矩阵,再用半监督算法调整相似度矩阵,最后用仿射传播聚类算法对低维数据进行聚类分析.仿真结果表明,本文提出的算法与半监督仿射传播聚类算法相比,在处理高维数据时聚类效果更好,精度更高,迭代次数更少.  相似文献   

10.
模糊C-均值聚类算法(F(M)是很早的目标函数聚类算法,也是目标函数聚类算法中研究的比较充分的算法之一,FCM算法是一种基于划分的聚类算法,它的思想就是使得被划分到同一簇的对象之间相似度最大,而不同簇之间的相似度最小。此算法的缺点是当数据量非常庞大时,算法的运算过程就会非常耗时,甚至是无法完成运算。  相似文献   

11.
针对原始K-means算法的一系列问题,提出一种基于半监督的K-means聚类改进算法,能够自动进行聚类,找出最优K值,并且最大限度地找出孤立点.首先根据样本集自身的特点,按照"类内尽可能相似"原则一步一步形成数据集,然后对数据集进行"去噪"与合并相似簇,最后,利用少量的标记信息指导和修正聚类结果.在UCI的多个数据集...  相似文献   

12.
图像聚类是当前的研究热点,非负矩阵分解(non-negative matrix factorization, NMF)算法在图像聚类领域得到了广泛应用。但是单一的NMF算法无法应用于所有数据集,并且NMF算法直接在数据的原始空间进行处理,抗噪能力较差。集成聚类可以解决上述问题,集成聚类将若干个基础聚类结果合成一个一致性结果,不仅可以提高聚类的求解质量,还可以增强算法的鲁棒性。因此本文提出一种层次预处理的NMF加权集成聚类算法。该算法将层次划分、集成聚类和二部图的思想引入到NMF算法中。在预处理阶段,利用层次划分得到聚类数目。之后采用局部加权的方法得到协关联矩阵。最后利用基于二部图的一致性函数进行划分得到最终的聚类结果。在5个数据集上进行实验,验证了本文算法相对于传统算法和其他集成算法的有效性。  相似文献   

13.
谱聚类是一种基于图谱划分理论的聚类算法,本质上是将聚类问题转化为图的最优划分问题;量子聚类可以充分挖掘数据样本的内在信息,是一种基于划分的无监督聚类算法.为了充分发挥谱聚类算法和量子聚类算法的优势,本文提出了一种基于流形距离核的谱聚类和量子聚类融合算法(MFD-NJW-QC).首先,计算数据集的流形距离核矩阵,构造相应的拉普拉斯矩阵;其次,根据拉普拉斯矩阵的若干最大特征值对应的特征向量构造新数据集,并使用量子聚类算法对新构造的数据集进行聚类,从而得到原始数据的类标签;最后,基于7个人工数据集和5个UCI数据集验证MFD-NJW-QC算法的聚类性能.结果显示,MFD-NJW-QC算法能够明显提高聚类性能,尤其对于具有流形结构,且类簇大小不平衡、密度分布不均匀的数据集优势更为突出.  相似文献   

14.
为提高传统协同过滤算法在个性化推荐系统中的大数据处理能力,研究了一种基于模糊聚类的并行推荐算法。在Hadoop平台下首先通过PCA降维和FCM聚类对用户物品评分矩阵进行预处理,采用皮尔逊相关系数计算用户间的相似度,通过得到的聚类簇集合构建最近邻集合,生成基本预测评分。最后实现算法的并行化处理并得到推荐结果。实验结果表明,与基于PCA降维的协同过滤和单机式传统协同过滤算法相比,该算法提高了推荐的准确性和实时性。  相似文献   

15.
研究了基于聚类技术提高分类器差异性的方法.通过Bootstrap技术与分类器学习算法训练分类器模型,利用分类器在验证集上的分类结果作为聚类的数据对象;然后应用聚类算法对这些数据聚类,并在每个簇中选择分类器代表模型,以此构成集成学习的成员;最后应用融合方法实验研究了基于聚类技术提高差异性的集成学习性能,并与集成学习方法bagging,adaboost进行了实验比较.  相似文献   

16.
文本聚类具有数据稀疏性的特点,常见的聚类方法采用基于距离的相异度,为了增强文档的区分特征,提出一种基于非对称相似度的方法,来度量文档对象之间的关联。定义了文本对象之间的非对称相似度度量。利用文本非对称相似度矩阵的稀疏特性,采用强连通构件的划分方法对文本对象进行聚类分析。并通过迭代的方法形成聚类结果的概念层次。实验结果表明:非对称相似度比距离相异度具有更高的准确率和更少的执行时间,当聚类结果簇数目达到较小时,准确率提高约为20%。  相似文献   

17.
目前多数多视角聚类算法不考虑噪声问题,为了更有效地分析含有噪声数据的聚簇结构,提出了一种基于可能性C-均值的鲁棒多视角聚类(PCM-RMVC)算法,该算法同时利用多个视角空间中的特征信息,最小化每个视角空间中数据对象与聚簇中心的距离.推导出数据隶属度和每个视角权重的迭代更新规则,设计出聚类过程的迭代算法.实验表明:PCM-RMVC算法对噪声具有较强的鲁棒性,并且聚类效果优于五种有代表性的多视角聚类算法.  相似文献   

18.
为同时保证基分类器的准确性和差异性, 提出一种基于聚类和AdaBoost的自适应集成算法. 首先利用聚类算法将训练样本分成多个类簇; 然后分别在每个类簇上进行AdaBoost训练并得到一组分类器; 最后按加权投票策略进行分类器的集成. 每个分类器的权重是自适应的, 且为基于测试样本与每个类簇的相似性及分类器对此测试样本的分类置信度计算得到. 实验结果表明, 与AdaBoost,Bagging(bootstrap aggregating)和随机森林等代表性集成算法相比, 该算法可取得更高的分类精度.  相似文献   

19.
近邻传播(Affinity Propagation,AP)聚类是基于数据点间消息传递的算法,主要通过数据间的相似度实现聚类.与传统的聚类方法相比,AP聚类无需事先给定聚类数目就可实现聚类,因此具有快速高效的优点,然而在处理高维复杂数据集时存在随着聚类效率提升而准确度不高的问题.为改善AP聚类算法的效率和精度,提出基于类内和类间距离的粗粒度并行AP聚类算法——IOCAP.首先引入粒度思想将初始数据集划分成多个子集;其次对各子集结合类内和类间距离进行相似度矩阵的改进计算,最后基于MapReduce模型实现改进后的并行AP聚类.在真实数据集上的实验表明,IOCAP算法在大数据集上有较好的适应性,能在保持AP聚类效果的同时有效地提升算法精度.  相似文献   

20.
针对传统模糊聚类算法需要预先确定初始隶属度矩阵的问题,该文提出了基于增量式模糊聚类算法(Incremental fuzzy clustering algorithm, FCLDA)的文本挖掘方法。首先根据文本集中关键词出现次数进行排序,优先选择出现次数多的关键词作为文本集的主题,然后利用隐含狄利克雷分布(Latent Dirichlet allocation, LDA)主题模型构建文档-主题概率分布组成矩阵,将该矩阵作模糊C均值聚类(FCM)算法的隶属度矩阵,并对隶属度矩阵的隶属度值增加一个权值,在FCLDA算法迭代过程中,采用模糊信息熵作为聚类数确定的标准,增加主题词,当模糊信息熵达到最小值时,聚类数确定下来,最后将FCLDA算法应用到网页的文本挖掘中,结果试验表明,相对于FCM算法和K最近邻(K-nearest neighbor)算法,FCLDA算法的运行聚类结果准确率更高,运行速度加快,更适合处理具有模糊性的文本。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号