首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 62 毫秒
1.
在聚类分析中,如何选择恰当的聚类个数是一个非常复杂而又必须面对的问题.尽管针对数值型数据聚类个数的选择算法已经进行了广泛地研究,但如何确定符号型数据的聚类个数仍然是一个富有挑战性的问题.结合划分和层次聚类的思想,提出一种符号数据聚类个数的确定算法.在UCI数据集上的实验结果表明该方法是有效的.  相似文献   

2.
将模糊处理技术与层次聚类算法相结合运用于犯罪网络分析,提出一种新的基于模糊层次聚类算法的犯罪网络分析方法.基于"9.11"事件数据集的实验结果表明,该方法在划分网络的同时,能够找到类属具有模糊性的成员,从而为打击犯罪提供有益的帮助.  相似文献   

3.
文档聚类和词聚类都是重要且被充分研究的问题.大多数现有的聚类算法针对文档和词是分别聚类,不是同时的.本文提出文档集作为文档和词间的一个二部图的模型思想,使用这个思想,联合聚类问题可以被看成二部图的分割问题.为了解决图的分割问题,使用一个新的联合谱聚类算法,即使用适度规模的词-文档矩阵的奇异向量产生好的分割结果.谱算法得到一些最佳的性能,表明奇异向量通过连续放松解决图划分的NP难问题.最后通过实验结果验证联合聚类算法在实践中非常有效.  相似文献   

4.
聚类分析是从基因表达谱数据中提取生物医学信息的主要方法之一.针对传统谱聚类算法无法确定聚类个数的问题,提出一种改进的谱聚类算法并将其应用于基因表达谱聚类分析.首先用基因表达谱数据构造Laplacian矩阵,经特征值分解后得到相应的特征值和特征向量,用谱隙来描述相邻特征值的差值;然后通过寻找谱隙序列的最大值来确定聚类个数;最后从单位化的特征向量着手实现数据类别的划分.通过模拟数据与癌症数据的实验,证明了该文算法的有效性.  相似文献   

5.
谱聚类是一种基于图谱划分理论的聚类算法,本质上是将聚类问题转化为图的最优划分问题;量子聚类可以充分挖掘数据样本的内在信息,是一种基于划分的无监督聚类算法.为了充分发挥谱聚类算法和量子聚类算法的优势,本文提出了一种基于流形距离核的谱聚类和量子聚类融合算法(MFD-NJW-QC).首先,计算数据集的流形距离核矩阵,构造相应的拉普拉斯矩阵;其次,根据拉普拉斯矩阵的若干最大特征值对应的特征向量构造新数据集,并使用量子聚类算法对新构造的数据集进行聚类,从而得到原始数据的类标签;最后,基于7个人工数据集和5个UCI数据集验证MFD-NJW-QC算法的聚类性能.结果显示,MFD-NJW-QC算法能够明显提高聚类性能,尤其对于具有流形结构,且类簇大小不平衡、密度分布不均匀的数据集优势更为突出.  相似文献   

6.
一种基于网格的层次聚类算法   总被引:1,自引:0,他引:1  
传统的凝聚层次聚类算法的时间复杂度为O(n3),由于时间复杂度太高而无法应用到大的数据集.针对这一问题,提出了一种新的基于网格的层次聚类算法,先用基于网格的方法进行一次微聚类,然后再用凝聚的层次聚类算法进行聚类.在进行凝聚的层次聚类时,提出了一种新的簇间距离度量方法,该方法采用簇中权值最高的代表点的最小距离作为簇间的距离.理论分析和实验结果表明,基于网格的层次聚类算法比传统的凝聚层次算法具有更高的效率和正确性.  相似文献   

7.
模糊c-均值聚类算法(fuzzy C-means 简称FCM)和层次聚类算法是两种非常重要的聚类算法.由于FCM算法对初始聚类中心敏感,并且需要人为确定聚类类别数,这样收敛结果易陷入局部最优解.通过对这两种聚类算法的分析,首先对传统的凝聚层次聚类算法提出了改进,然后用改进的凝聚层次聚类算法得到最佳聚类数和初始聚类中心,最后用FCM算法进行再次聚类,以此得到更好的聚类结果并且减少了执行时间和迭代次数.  相似文献   

8.
为解决模糊层次聚类算法无法收敛的问题,提出一种改进的模糊层次聚类算法.算法在分群前先进行数据处理,将特征向量相同的群合并成一个新的群,再使用模糊层次聚类算法分群,最后使用K-means算法将类簇收敛为想要的数量.实验结果表明,本算法具有较好的稳定性和分群效果,聚类质量高.  相似文献   

9.
针对传统谱聚类算法在非平衡数据集上聚类效果不理想的问题,提出了一种平衡化谱聚类算法,该算法在传统谱聚类目标函数的基础上加入了对聚类隶属度矩阵的近似正交约束,从而得到新的聚类目标函数.实验结果表明,新算法可以缓解传统谱聚类产生的均匀效应,提升了在非平衡数据集上的聚类纯度.  相似文献   

10.
谱聚类算法建立在谱图划分理论基础上,与传统的聚类算法相比,它具有能在任意形状的样本空间上聚类且收敛于全局最优解的优点。然而,谱聚类算法涉及如何选取合适的尺度参数σ构造相似度矩阵的问题。并且,在处理大规模数据集时,聚类的过程需要较大的时间和内存开销。研究从构造相似度矩阵入手,以传统NJW算法为基础,提出一种基于K近邻的自适应谱聚类快速算法FA-SC。该算法能自动确定尺度参数σ;同时,对输入数据集分块处理,并用基于K近邻的稀疏相似度矩阵保存样本信息,减少计算的内存开销,提高了运行速度。通过实验,与传统谱聚类算法比较,FA-SC算法在人工数据集和UCI数据集上能够取得更好的聚类效果。  相似文献   

11.
覆盖聚类算法   总被引:9,自引:0,他引:9  
首先比较几类主要的聚类算法,给出每类算法的基本概念、原理、每类的代表性算法,及这些算法的主要特征。在此分析基础上,提出一种新的聚类算法———覆盖聚类算法,该算法采用覆盖的概念将比较集中的样本聚合在一起,从而发现隐含在样本集中的类,对于周围稀疏的样本结合最短距离法,获得聚类效果,并用实验数据对分层聚类方法、LBG方法与覆盖聚类算法进行比较,证明了覆盖聚类算法的可行性和有效性。最后给出了算法的研究方向。  相似文献   

12.
提出一种用拉普拉斯图的谱系数夹角谱特征来描述图像几何结构的方法,同时研究了基于图的谱聚类系统.首先将序列图像以角点的形式构成拉普拉斯矩阵;然后分解该矩阵,结合特征值和其特征向量计算图中各点的谱系数夹角谱特征;再以局部保持投影方法将这些向量内嵌到模式空间,并在其特征空间用模糊c-均值算法进行聚类分析.结果表明,以拉普拉斯图的谱系数夹角谱特征解决了图中各点在向量空间的分布及其对应关系,在模式空间进行的聚类分析是有效的.  相似文献   

13.
考虑到实验数据的大规模及样本数据形状的复杂性等特点,提出一种基于分级聚类与DBSCAN聚类相结合的HL-DBSCAN聚类算法,避免了DBSCAN的聚类算法较大的时间复杂度,适用性更广,更能体现一个聚簇的规律,提高分类精度.通过实验与结果分析,取得较好的聚类结果,证明了该算法在文本聚类处理中的可行性.  相似文献   

14.
15.
目前谱聚类在文本分类、图像分割和信息检索等领域的应用越来越引起研究者的重视,并取得了一定的成果、但是,大多数已有的谱聚类算法需要事先给定聚类数.在k-means算法、EM等聚类方法中也存在相似的问题、在此介绍了一种简单的容易实现的谱聚类算法,可以自动确定合适的聚类数.实验表明本算法结果很好、  相似文献   

16.
基于势能的快速凝聚层次聚类算法使用一种全新的相似性度量准则,可以更高效地得到聚类结果。针对该算法无法有效处理含噪声的复杂流形数据的缺陷,提出噪声环境下复杂流形数据的势能层次聚类算法。通过势能递增曲线识别噪声点,在新定义的势能最大、最小2层数据上进行自动聚类,以确定类簇的大体框架,并在此基础上对整个数据集进行层次聚类。人工数据集上的实验表明,新算法可以有效处理噪声环境下复杂流形数据;真实数据集上的实验表明,新算法具有更优的聚类效果。  相似文献   

17.
聚类分析是一种寻求客观分类的方法,它是多元统计分析中三大实用方法之一。本文首先对聚类分析的各种算法进行分类与介绍;然后总结了聚类分析在经济、生物、电子商务、保险等方面的一些应用,并对两类应用较广泛的聚类算法进行对比分析;最后结合SPSS软件,分别运用系统聚类法和 K-均值聚类法对我国31个省区经济发展水平进行分类,发现二者分类结果相同,且与我国现阶段各省各地区经济发展现状吻合度较高。  相似文献   

18.
We propose two models in this paper. The concept of association model is put forward to obtain the co-occurrence relationships among keywords in the documents and the hierarchical Hamming clustering model is used to reduce the dimensionality of the category feature vector space which can solve the problem of the extremely high dimensionality of the documents~ feature space. The results of experiment indicate that it can obtain the co-occurrence relations among keywords in the documents which promote the recall of classification system effectively. The hierarchical Hamming clustering model can reduce the dimensionality of the category feature vector efficiently, the size of the vector space is only about 10% of the primary dimensionality.  相似文献   

19.
随着经济的快速发展,我国的生态环境面临着越来越大的压力,对生态环境的监测和预警是维护绿色生态环境可持续发展的重要措施。获得最为理想的生态环境数据是开展生态监测和预警的前提,而合理的采样点选择是生态环境监测中一个重要环节。本文介绍了一种对采样点进行优选的方法,首先利用数据预处理技术对初始环境监测数据进行处理,之后利用基于改进凝聚层次聚类算法对环境监测数据进行聚类,最后选出距离聚类中心最近的采样点作为优选采样点。整个处理技术简单有效,对于中小规模的生态环境监测采样点的优选具有现实意义。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号