首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 156 毫秒
1.
针对k-prototype算法在处理复杂的数据集时,常出现一些纯度不高的簇,影响了聚类质量的问题,提出一种基于k-prototype的多层次聚类改进算法,利用属性自动选择的方法将一些纯度不高的簇进行再聚类,以提高聚类质量.以UCI标准测试数据集进行实验,实验结果表明,该改进算法能够明显提高混合型数据集的聚类质量,并且在数据约简方面有良好表现.  相似文献   

2.
基于提供的11种聚类外部指标来组合多个聚类,通过单个对象的簇标记变化递增地更新目标函数来求出共识聚类,并利用模拟退火优化算法框架来解决局部最优问题。在UCI和TREC数据库中选取10个数据集进行几种算法的外部指标聚类性能评估实验,从实验数据的归一化角度和排序角度评估不同外部指标的聚类性能,结果表明:MSS3指标从整体性能表现上最适合用于引导聚类集成,可以作为算法默认的共识函数;基于模拟退火优化算法的聚类集成算法在7个数据集上优于其他聚类方法,而DBSCAN、MCLA、Kmearns算法则在其余3个数据集上表现最好。  相似文献   

3.
启发式聚类算法具有收敛速度快、易实现等优点,但初始解敏感,严重影响了聚类算法的质量。针对这一问题,提出了一种烟花搜索导向的多路启发式聚类算法。该算法通过多次调用经典启发式聚类算法,产生多个局部最优解;在搜索空间中以多个局部最优解为搜索起点,采用烟花搜索进行多路搜索;基于信息熵浓度设计烟花选择算子确定搜索方向;再经过变异、映射、偏移算子变换局部最优中心点,以发现质量更好的搜索起点;直至算法收敛获得新的搜索起点;最终以新的搜索起点调用经典启发式聚类算法获得高质量聚类结果。实验结果表明,烟花搜索导向的多路启发式聚类算法在不同数据集上的聚类质量明显高于对比其他聚类算法的聚类质量。  相似文献   

4.
基于入侵性杂草克隆的图像聚类方法   总被引:2,自引:0,他引:2  
针对原始谱聚类初始敏感的缺点,提出了一种新的基于入侵性杂草优化(IWO)的图像聚类方法(CIWO).该算法通过计算峰值信噪比(PSNR),动态确定图像聚类簇数的最优选择范围,采用最小量差、最小簇内距离、最大簇间距离重新构造了图像聚类质量的评价函数,通过模拟杂草克隆的自然行为对图像数据集的簇中心进行快速准确定位.将算法应用于几个基准测试图像,并通过聚类有效性准则与k-Means、FCM、PSO等方法进行比较,发现CIWO具有更稳定的图像聚类性能.实验结果也表明,所提出的算法可获得更优的图像聚类质量.  相似文献   

5.
基因聚类分析中数据预处理方式和相似度的选择   总被引:6,自引:0,他引:6  
聚类分析是基因表达数据分析研究的主要技术之一.选择恰当的数据预处理方式和相似性度量,是获得高质量聚类结果的前提.采用具有外部标准的基因表达数据集,分别以Pearson相关系数和Euclidean距离为相似度,以校正的Rand 指数比较了使用分层聚类、K-均值聚类和SOMs聚类算法对经过行标准化、列标准化和对数化处理后数据的基因聚类质量.结果表明:K-均值聚类和SOMs聚类质量显著优于分层聚类,SOMs聚类质量稍好于K-均值聚类.而且,分层聚类偏好于Pearson相关系数准则和行标准化处理,而应用K-均值聚类和SOMs算法时,则最好是对数据进行对数化处理、并以Euclidean距离为相似性度量准则.上述研究结论将为基因表达聚类分析的实施提供有价值的参考依据.  相似文献   

6.
聚类集成是集成学习中的一个重要分支,其目标是解决无监督聚类分析中聚类算法的选择性、偏差性与数据特殊性等导致聚类结果不理想的问题。文章提出了一种基于数据关联的聚类集成方法(CEBDR),该算法先提取出在聚类成员中体现有关联关系的数据对象来组成新的类,然后对这些类进行二次聚类得到最终的集成结果。文中选用了一些标准数据集,采用CEBDR算法、已有的基聚类和聚类集成算法来进行对比实验,实验结果表明,该算法能够有效地提高聚类质量。  相似文献   

7.
半监督学习是近年来机器学习领域中的一个重要研究方向,其监督信息的质量对半监督聚类的结果影响很大,主动学习高质量的监督信息很有必要.提出一种纠错式主动学习成对约束的方法,算法通过寻找聚类算法本身不能发现的成对约束监督信息,将其引入谱聚类算法,利用该监督信息来调整谱聚类中点与点之间的距离矩阵.采用双向寻找的方法,将点与点间距离进行排序,使得学习器即使在接收到没有标记的数据时也能进行主动学习,实现了在较少的约束下可得到较好的聚类结果.同时,该算法降低了计算复杂度,并解决了聚类过程中成对约束的奇异问题.通过在UCI基准数据集以及人工数据集的实验表明,算法的性能好于相关对比算法,并优于采用随机选取监督信息的谱聚类性能.  相似文献   

8.
一种基于密度和网格的高效聚类算法   总被引:1,自引:0,他引:1  
聚类已成为数据挖掘的主要方法之一,能够帮助人们在大量的数据中发现隐藏信息.目前最具典型的密度聚类算法是DBSCAN(density-based spatial clustering of applications with noise),它能够在空间数据库中很好地发现任意形状的簇并有效地处理噪声,但是它的计算复杂度相对较大.因此,采用划分数据集和聚簇合并方法,提出了一种基于密度和网格的高效聚类算法DGCA,并通过人工合成数据集和真实数据集对该聚类算法进行理论验证.实验结果表明该算法在效率性能和质量方面比DBSCAN都得到了提高.  相似文献   

9.
针对海量数据聚类过程中,经典的K-均值聚类算法对其K个初始聚类中心点的选择以及数据集噪声十分敏感的问题,提出了一种针对海量数据考虑初始聚类中心点选择的聚类算法.该算法首先采用冒泡排序法对数据集进行排序,获取数据集的各维中心值组成第一个初始聚类中心点.其次,通过计算与第一个初始聚类中心点的欧式距离,对剩余候选初始聚类中心点进行优化选择,保证所有的聚类中心点均匀地分布在数据集密度较大的空间上,以此减少聚类过程中的迭代次数和提高聚类算法效率.最后,基于UCI(University of California,Irvine)中多个数据集,进行聚类算法对比实验.结果表明,在不降低聚类效果的前提下,该聚类算法的迭代次数平均降低到50%,所需的时间降低平均达10%,由实验结果还能推出,当点集的数目越多时,该算法就能表现出越明显的聚类优势效果.  相似文献   

10.
针对模糊c均值聚类算法的一些不足之处提出了一种新的均值漂移聚类算法--无监督多尺度聚类算法.该算法不受初始化的影响,不用假定数据的聚类个数以及聚类中心的初始位置,能够利用模糊聚类的方法来获得硬的聚类划分,能够从不同的"划分尺度"揭示数据的聚类结构,并能自动的确定聚类个数.为了满足处理大数据集的需要,设计了快速无监督多尺度模糊聚类算法.通过实验证明无监督多尺度聚类算法在多数数据集上都表现良好且具有最好的总体聚类性能,并能成功揭示出数据的聚类结构.实验还证明快速无监督多尺度模糊聚类算法具有较快的速度和较高的识别精度且适用于大数据集.2个算法都取得了令人满意的实验结果.  相似文献   

11.
目的探索同时确定K-means算法的最佳聚类数K和最佳初始聚类中心的方法,使K-means算法的聚类结果尽可能地收敛于全局最优解或近似全局最优解。方法以次胜者受罚竞争学习(Rival Penalized Competitive Learning,RPCL)作为K-means的预处理步骤,以其学习结果作为K-means的聚类数和初始聚类中心并依据数据集样本自然分布定义样本密度,将此密度引入RPCL的节点权值调整,以此密度RPCL的输出作为K-means的最佳聚类数K和最佳初始聚类中心。采用UCI机器学习数据库数据集以及随机生成的带有噪音点的人工模拟数据集进行实验测试,并用不同的聚类结果评价指标对聚类结果作了分析。结果提出的密度RPCL为K-means提供了最佳的类簇数和最佳的初始聚类中心。结论基于密度RPCL的K-means算法具有很好的聚类效果,对噪音数据有很强的抗干扰性能。  相似文献   

12.
数据集的质量会极大地影响分类算法的精度,针对一类隐式互斥的数值型数据提出了一致性分类方法.借鉴连续函数的思想,提出了数值型连续数据的分类一致性定义;改进了SOM算法的计算过程,使其满足文中提出的分类一致性最优条件.通过改进的SOM方法得到一个新的聚类数据集,减少了原始数据集中容易出现的隐式分类不一致性问题,从而有效地提高了分类方法的效率和分类精度.通过在一个实际的数据集上的比较,表明提出的算法的预测精度明显优于其他算法.进而还从VC维的角度分析了提出算法的优点.  相似文献   

13.
传统软子空间聚类算法在利用局部搜索策略解决等式约束的连续非线性的变量加权问题时,易陷入局部最优导致聚类效果不佳.针对该问题,该文提出了一种随机学习萤火虫算法优化的模糊软子空间聚类算法.该算法利用具有全局搜索能力的萤火虫算法对新算法的目标函数进行优化,同时,为弥补萤火虫算法易提前收敛和寻优精度较低的缺陷,对萤火虫种群进化方式和全局最优粒子的学习方式进行了改进.新算法将权值矩阵拟化成萤火虫种群,使变量加权的等式约束变为界约束,通过萤火虫位置的更新搜索最优权重并发掘子空间中隐藏的簇类.在人工数据集、UCI标准数据集和癌症基因表达数据集上的实验结果表明:该算法具有较好的聚类效果.  相似文献   

14.
假设β1α1 0,β2α2 0。文章对如下定义的强奇异积分算子Q乙2f(x-t, y-s, z-γ(t)h(s))t1e+α1,γ(t), h(s)满足某些适当的条件。利用振荡积分估计,得到当β1 3α1 0且β2  相似文献   

15.
为提高K-means算法全局搜索能力,提升聚类效果,提出一种基于近似骨架和混合蛙跳算法的K-means方法。该方法首先利用经典的混合蛙跳算法取代K-means算法中原有迭代公式,获得更优秀的聚类结果;然后对获得的聚类结果,使用基于近似骨架和混合蛙跳算法的K-means算法不寻找聚类中心,而是直接对簇的划分进行修改。UCI数据集实验结果表明,使用改进的聚类算法获得的聚类结果,较其他算法结果更为优秀。最后将改进后的聚类算法应用到医学眼底病历图像中,可以得到较好的血管切割效果。  相似文献   

16.
为获得某款防滑差速器壳体在实际工况中的具体力学特性,基于有限元分析法对某四驱汽车防滑差速器壳体进行设计分析。首先,在Abaqus软件中建立防滑差速器壳体的有限元分析模型。接着,利用Romax软件进行防滑差速器壳体在两种极限工况下的轴承受力分析,同时设立更为精确的边界条件和载荷,从而进行应力、应变和疲劳分析。分析结果表明该防滑差速器壳体在极限工况下位移量较大,需要进行优化设计。结合静力学分析结果,以壳体加强筋的长度和厚度为优化变量,对防滑差速器壳体进行优化设计,通过优化前后对比分析,发现优化后壳体在各种工况下的应力和应变均显著降低,符合设计要求。采用软件仿真进行轴承受力分析有效地避免了繁琐的理论计算,同时使得分析方法更加简单,分析结果更贴合实际。另外,有限元分析方法也大幅缩短了防滑差速器壳体的研发周期与设计成本。  相似文献   

17.
为解决基于密度的聚类算法处理大规模数据集效率低和存储开销大的问题, 提出一种分片的基于K邻近关系的空间均匀抽样算法作为聚类应用的数据预处理过程, 将数据集分片,按密度降序方式去除数据集中部分样本的K邻居, 将剩余样本作为抽样样本, 在保证精度的同时, 可以降低数据规模, 提升计算效率. 实验结果表明, 在数据规模较大且保证聚类结果准确性的前提下, 通过降低聚类数据规模, 可以有效提升聚类效率.  相似文献   

18.
一种改进的聚类和孤立点检测算法   总被引:1,自引:0,他引:1  
对基于距离的聚类及基于密度的孤立点检测方法进行了分析研究,提出了一种基于距离和密度的聚类和孤立点检测算法DDBCOD.该算法根据距离和密度阈值对数据进行聚类,并发现数据中的孤立点.实验表明,该算法能够识别任意形状的聚类,对高维数据有效,能够很好地识别出孤立点.  相似文献   

19.
针对传统的以k-means为代表的分割聚类算法认为所有的聚类样本对聚类中心的影响都是相同的这一观点,提出基于样本加权的聚类算法,并采用实际数据集验证算法的有效性.实验表明,该算法比传统的k-means聚类算法具有更高的精确度.  相似文献   

20.
提出了一种基于距离和密度的聚类和孤立点检测算法.该算法根据距离和密度阈值对数据进行聚类,同时发现数据中的孤立点.实验结果表明,该算法能够识别任意形状的聚类,对高维数据有效,能够很好的识别出孤立点.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号