首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 40 毫秒
1.
借鉴邻域粗糙集处理连续型数据的优势,为解决传统谱聚类算法需要人工选取参数的问题,提出基于自适应邻域互信息与谱聚类的特征选择算法。首先,定义各对象在属性下的标准差集合与自适应邻域集,给出自适应邻域熵、平均邻域熵、联合熵、邻域条件熵、邻域互信息等不确定性度量,利用自适应邻域互信息对特征与标签的相关性进行排序。然后,结合共享近邻自适应谱聚类算法,将相关性强的特征聚到同一特征簇内,使不同特征簇内的特征强相异。最后,使用最小冗余最大相关技术设计特征选择算法。在10个数据集上选择特征个数与分类精度的实验结果,验证了所提算法的有效性。  相似文献   

2.
一种基于最大最小距离和SSE的自适应聚类算法   总被引:1,自引:0,他引:1  
K均值聚类是一种常用的聚类算法,需要指定初始中心和簇数,但随意指定初始中心可能导致聚类陷入局部最优解,且实际应用中簇数未必是已知的。针对K均值聚类的不足,文中提出了一个自适应聚类算法,该算法基于数据实例之间的最大最小距离选取初始聚类中心,基于误差平方和(SSE)选择相对最稀疏的簇分裂,并根据SSE变化趋势停止簇分裂从而自动确定簇数。实验结果表明,该算法可以在不增加迭代次数的情况下得到更准确的聚类结果,验证了所提聚类算法是有效的。  相似文献   

3.
聚类算法是数据挖掘算法中的重要解决方法.针对现有聚类算法模糊c均值算法FCM中的不足,如需要预先确定聚类参数c,随机性较强、局部最优等弱点,对其算法结构加以改进,提出模糊c均值自适应算法(FCMA),增加聚类有效性问题的分析,在聚类过程中可动态调整聚类数目,这种方法可以避免在确定参数时的随机性和经验性,提高聚类算法的可靠程度.  相似文献   

4.
用于发现数据集类簇数k的常用内部评价指标DB(Davies Bouldin)和BWP(Between-within Proportion)等需要先确定一个搜索范围kmax,使数据集的类簇数满足k≤kmax,但如何确定kmax尚无理论指导。针对这一问题,提出一个新F统计量Fr,将Fr作为新聚类有效性准则,以判断聚类算法收敛与否,自适应地确定数据集类簇数;将Fr应用于快速K-medoids算法的收敛性判断,并以基于最小生成树的测地距离,即样本对在最小生成树上的路径长度,代替其间的直接欧氏距离度量样本相似性,得到一种自适应的快速K-medoids聚类算法,解决了K-medoids算法需要人为给定类簇数和不能发现任意形状簇的问题。UCI机器学习数据库数据集和人工模拟数据集实验测试表明,本文提出的Fr指标是一种有效的聚类算法评价指标,基于该指标和测地距离的K-medoids算法不仅能发现任意形状的簇,还可以自适应地确定数据集的类簇数,且对噪音数据有很好的鲁棒性。  相似文献   

5.
密度峰值聚类算法(Density peaks clustering,DPC)是一种基于密度的新型聚类算法.该算法的优点十分显著:所需参数较少,没有迭代过程,能自适应获得聚类数目并识别任意形状的簇类.该算法也有一些问题亟待解决:(1)在决策图上人工选择聚类中心,产生聚类误差;(2)在密度不同的流形数据集上聚类效果不佳.针...  相似文献   

6.
针对粗糙模糊C均值聚类的阈值、权重选取问题,提出了一种基于不确定性度量的参数自适应获取方法.该方法将阈值选取归结为一个最优划分寻找问题,给出一种基于方差的划分优劣评价方法;利用信息熵来度量样本归属的模糊性,基于该模糊性度量和类簇的粗糙度,提出了一种权重参数自适应计算方法.将所提方法应用于粗糙模糊C均值聚类,并将分别基于所提方法与典型参数选取方法的粗糙模糊C均值聚类算法在人工数据集和真实数据集上进行实验比较.结果表明,基于所提参数确定方法的粗糙模糊C均值聚类能获得更好的聚类有效性和准确性.  相似文献   

7.
为解决模糊层次聚类算法无法收敛的问题,提出一种改进的模糊层次聚类算法.算法在分群前先进行数据处理,将特征向量相同的群合并成一个新的群,再使用模糊层次聚类算法分群,最后使用K-means算法将类簇收敛为想要的数量.实验结果表明,本算法具有较好的稳定性和分群效果,聚类质量高.  相似文献   

8.
移动时间层次聚类(Travel-Time based Hierarchical Clustering,TTHC)是一种新的势能聚类算法,尽管具有较好的聚类效果,但是该算法需要人工设定聚类数目,而且在分配样本的时候仅根据相似度,忽略了距离和势能的影响.针对以上问题,提出一种自动确定聚类中心的移动时间势能聚类算法.首先计算每个数据点的势能和相似度,然后根据相似度确定数据点的父节点,得到数据点与父节点的距离;然后,根据数据点与父节点的相似度、距离和数据点的势能得到综合考量值,根据综合考量值自动确定聚类中心;最后,将剩余数据点分配到比其势能小且与其相似度最大的数据点所属类簇,得到聚类结果.将新算法与TTHC算法进行比较,在人工数据集和真实数据集上的实验结果表明,新算法不仅能够自动确定聚类数目,而且采用了更优的分配机制,可以产生更好的聚类结果.  相似文献   

9.
由于词语的多语义问题和传统的文本表示与聚类过程相互独立的问题,导致文本聚类准确率较低。针对上述问题提出一种基于多语义文本表示的自适应模糊C-均值(Multi-semanticSrepresentationSbasedSadaptiveSfuzzySC-means, MSR-AFCM)聚类算法。通过将词语软聚类划分成多个词簇构建多个语义空间,将语义空间个数作为文本初始聚类数目,利用词语的语义隶属度计算每个文本属于文本空间的语义隶属度,并以此为对隶属度进行初始化。在算法运行过程中,根据更新的文本语义隶属度和文本分布状况,逐步剔除冗余的文本空间,以达到优化聚类数目的目标。实验结果表明,MSR-AFCM算法相较于传统的聚类算法有更高的准确率和兰德系数,验证了算法的有效性。  相似文献   

10.
针对谱聚类算法在构造相似矩阵时对尺度参数敏感以及对多尺度数据集聚类效果不太理想的问题,提出了基于密度敏感的改进自适应谱聚类算法.首先利用密度差来调整簇类样本点之间的相似度构造新的相似矩阵函数,然后利用新的相似矩阵构造拉氏矩阵,选取拉氏矩阵的前k个最大特征值对应的特征向量组成新的向量空间,新的向量空间中的点与原始数据一一对应,最后引入K-means聚类算法对数据点进行聚类.该算法在降低对尺度参数敏感性的同时又改善了对多尺度数据集的处理.通过在人工数据集以及UCI数据集仿真实验结果表明,本文提出的算法具有较优的聚类效果.  相似文献   

11.
谱聚类算法建立在谱图划分理论基础上,与传统的聚类算法相比,它具有能在任意形状的样本空间上聚类且收敛于全局最优解的优点。然而,谱聚类算法涉及如何选取合适的尺度参数σ构造相似度矩阵的问题。并且,在处理大规模数据集时,聚类的过程需要较大的时间和内存开销。研究从构造相似度矩阵入手,以传统NJW算法为基础,提出一种基于K近邻的自适应谱聚类快速算法FA-SC。该算法能自动确定尺度参数σ;同时,对输入数据集分块处理,并用基于K近邻的稀疏相似度矩阵保存样本信息,减少计算的内存开销,提高了运行速度。通过实验,与传统谱聚类算法比较,FA-SC算法在人工数据集和UCI数据集上能够取得更好的聚类效果。  相似文献   

12.
模糊C均值算法(FCM)是图像分割最常用的算法之一,这种方法需要提前确定初始聚类中心和聚类数.为此,提出了一种新的自适应模糊聚类算法(AFCM),AFCM算法中构造的观察矩阵、判断矩阵和集合划分可以自动确定合适的聚类数.为了得到更好的图像分割效果,采用核距离作为相似性度量,提出了一种鲁棒性自适应模糊C均值算法(RAFCM).实验结果表明,与FCM算法相比,AFCM和RAFCM算法不仅能自动地确定聚类数目,还可以得到更好的图像分割质量.  相似文献   

13.
针对图形模糊聚类算法缺乏噪声抑制能力的不足,提出基于鲁棒距离的自适应图形模糊聚类分割算法.首先,将邻域像素灰度信息嵌入图形模糊聚类目标函数,得到鲁棒图形模糊聚类分割算法.然后,利用鲁棒距离代替鲁棒图形模糊聚类目标函数中的平方欧氏距离,并对该鲁棒聚类中正则因子采用当前样本与邻域信息均值之偏差进行自适应调节.最后,利用拉格朗日乘子法获得自适应鲁棒图形模糊聚类迭代表达式.灰度图像及其噪声干扰图像的分割测试结果表明:该分割算法相比图形模糊聚类算法、鲁棒图形模糊聚类算法以及现有的鲁棒模糊聚类算法等具有更强的分割能力和抑制噪声的能力.  相似文献   

14.
DPC算法是一种能够自动确定类簇数和类簇中心的新型密度聚类算法,但在样本分配策略上存在聚类质量不稳定的缺陷.其改进算法KNN-DPC虽然具有较好的聚类效果,但效率不高而影响实用.针对以上问题,文中提出了一种近邻密度分布优化的DPC算法.该算法在DPC算法搜索和发现样本的初始类簇中心的基础上,基于样本的密度分布采用两种样本类簇分配策略,依次将各样本分配到相应的类簇.理论分析和在经典人工数据集以及UCI真实数据集上的实验结果表明:文中提出的聚类算法能快速确定任意形状数据的类簇中心和有效地进行样本类簇分配;与DPC算法和KNN-DPC算法相比,文中算法在聚类效果与时间性能上有更好的平衡,聚类稳定性高,可适用于大规模数据集的自适应聚类分析.  相似文献   

15.
将数字图像处理中模糊锐化算子与三支聚类进行结合,提出了一种基于图像处理的三支聚类算法。该算法通过逆多元二次核函数将数据集的密度量化为灰度值,对数据总体采用模糊与锐化操作,提取锐化后灰度值较高的数据区域,将低密度区域从原始数据中删除。对灰度值较高的数据采用传统的聚类算法得到不同的类簇,然后对每个类簇利用图像模糊算子得到类簇的核心域,锐化算子得到类簇数据边界域,从而获得每个类簇的三支表示。试验采用不同的UCI数据集,通过比较聚类指标Adjusted Rand Index(ARI),Normalized Mutual Information(NMI)和Adjusted Mutual Information(AMI),验证了该聚类算法的有效性。  相似文献   

16.
为了降低谱聚类采用高斯函数作为相似性度量方式对参数的敏感性,以及能够发现多密度簇的同时降低噪声点的干扰,提出了一种将基于均衡接近度的灰关联分析结合到谱聚类中的新方法,采用加权的自适应相似性度量方式。最后用改进的FCM算法对其进行聚类。在真实数据集和人工数据集上分别对提出的算法和现有算法进行了比较分析。研究结果表明,提出的新算法能够消除参数的影响,具有更高的聚类精度。聚类精度采用F测度指标。  相似文献   

17.
硬聚类要求聚类的结果必须具有清晰的边界,即每个对象要么属于一个类,要么不属于一个类.然而,将某些不确定的对象强制分配到某个类中往往容易带来较高的决策风险.三支聚类将确定的元素放入核心域中,将不确定的元素放入边界域中延迟决策,可以有效地降低决策风险.本文将三支决策理论与传统的谱聚类算法相结合给出了三支谱聚类的聚类算法.该方法通过修改谱聚类算法的聚类过程并获得任一类簇的上界.然后通过扰动分析从该类簇的上界分离出该类簇的核心域,同时上界与核心域的差值认为是该类簇的边界域.在UCI数据集上的实验结果显示,该方法能有效提高聚类结果的ACC、AS、ARI值,并且降低DBI值.  相似文献   

18.
目前的FCM类型的算法聚类数目的确定需要聚类原形参数的先验知识,否则算法就会产生误导.为了提高图像分割算法的抗噪性能,用K均值聚类算法简单、快速的优点对模糊C均值聚类算法进行改进.结合图像的邻域信息,对图像的直方图作均衡化处理,改善图像质量,通过自适应滤波,降低噪声对分割效果的影响.先用K均值聚类算法对图像进行分割,快速的获得较为准确的聚类中心和初次分割图像,避免了FCM算法中初始聚类中心选择不当造成的死点问题.用邻域灰度均值信息代替传统模糊C均值聚类算法中的灰度信息,对K均值聚类得到的图像作二次分割.该方法能更好的抑制噪声的干扰,提高了聚类算法的分割精确度.  相似文献   

19.
密度峰值聚类算法(density peaks cluster,DPC)是一种基于密度的聚类算法,该算法可以聚类任意形状的类簇.在类簇间有密度差距的数据集上,DPC不能准确地选择聚类中心.DPC的非中心点分配策略会引起连续错误,影响算法的聚类效果.模糊k近邻密度峰值算法(fuzzy k-nearest neighbor DPC,FKNN-DPC)是一种改进的DPC算法,该算法采用边界点检测并结合2步分配策略来避免连续错误.当类簇间有密度差距时,FKNN-DPC的边界点检测效果不理想,此外,其非中心点分配策略缺乏对样本近邻信息的考虑.定义相对密度(relative density)并结合近邻关系(nearest neighbor relationship)提出RN-DPC算法解决上述问题.针对DPC因为类簇间的密度差距而不能准确选择聚类中心的问题,定义相对密度用于消除类簇间的密度差距.基于反向k近邻关系检测边界点并且引入共享最近邻关系来对FKNN-DPC的分配策略进行改进.RN-DPC算法在人工数据集和真实数据集上分别与不同的聚类算法进行了对比,实验结果验证了RN-DPC算法的有效性和合理性.  相似文献   

20.
网页文献的快速模糊聚类   总被引:2,自引:0,他引:2  
基于对文献聚类的3种方法(c-means法、模糊c-means法和学习向量量化法)的统计和分析,借鉴了模糊聚类思想,尤其是用协方差矩阵来描述聚类的形状和大小,并将其应用于学习向量量化算法中。针对新的参考向量开发了模糊竞争学习模式,并用该算法成功地解决了文献聚类的难题。实验结果表明:学习向量量化算法能有效地解决文献的聚类问题,运行时间短;该算法与模糊聚类算法相比更健壮;该算法使在线文献聚类分析成为可能。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号