首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 125 毫秒
1.
针对SMOTE算法和随机森林可较好解决不平衡数据集的分类问题但对少数类样本分类效果还有待提高的问题,融合Canopy和K-means两种聚类算法,设计了C-K-SMOTE改进算法。先后利用Canopy算法进行快速近似聚类,再利用K-means算法进行精准聚类,得到精准聚类簇,最后利用SMOTE算法增加少数类样本数量,使数据趋于平衡。选取公开数据集KEEL(knowledge extraction on evolutionary learning)数据库中的不平衡数据集,结合随机森林分类模型进行了实验验证,实验表明C-K-SMOTE算法可有效平衡不平衡数据集。  相似文献   

2.
基于工业领域广泛用到的Hadoop分布式计算平台,使用Canopy+K-means算法对手写数字进行聚类研究.针对传统Canopy算法初始阈值的确定问题,引入"最大最小化原则"确定初始阈值,计算得到K-means算法所需的初始聚类中心点.实验结果表明,Canopy算法能够较大程度地提高K-means算法的正确率.  相似文献   

3.
针对全局K-means聚类算法和快速全局K-means聚类算法在选择下一簇的聚类中心点时,需要逐一计算数据集中每个点作为备选聚类中心点时的簇内平方误差函数,而数据集中存在很多不可能作为备选点的噪声点.为剔除噪声点,提出了一种基于高密度数的DGK-means算法,并通过UCI数据库中的4组数据集进行实验测试.验证了在聚类效果稳定的前提下,改进的DGK-means算法比全局K-means算法和快速全局K-means算法,聚类用时更短,聚类效率更高.  相似文献   

4.
电力负荷聚类分析研究是负荷特性模拟、需求侧管理等应用的基础。针对负荷数据日趋多样性、随机性,传统K-means算法无法有效处理高维数据,且存在人工给定聚类数目K值及随机选取初始聚类中心易收敛至局部最优的问题,本文提出一种基于自编码器(Auto-Encoder,AE)降维的电力负荷聚类方法。首先利用自编码器网络对采集的负荷数据提取特征,降低数据维度,然后通过密度权值Canopy算法对降维后的数据预聚类,得到初始聚类中心和最优聚类数目K值,将预聚类结果结合K-means算法进行聚类。算例结果表明,该方法能够有效对负荷数据进行特征提取,并减少聚类过程中的复杂度,提高了聚类结果准确度和聚类效率。  相似文献   

5.
在短文本聚类的过程中,常发现特征词的稀疏性质、高维空间处理的复杂性.由于微博的内容长度限制和特征稀疏性,特征向量的高维度被执行,导致模糊聚类结果.本文使用了Latent Dirichlet Allocation主题模型,对训练数据进行建模,并将主题术语扩展原始微博的特征,从而丰富了聚类文本特征,提高聚类效果.实验结合K-means和Canopy聚类算法对文本数据进行处理,提出了LKC算法,弥补了K-means算法对初始聚类中心点选取的敏感性,结果实现了更高的精度和聚类F1-measure的测量值.F1值提高了10%,准确度提高了2%.  相似文献   

6.
针对传统聚类算法效率低、效果差和稳定性弱等弊端,提出一种新的云计算环境下关联性大数据实时流式可控聚类算法。介绍了关联性实时流式数据的定义和特点。通过粗聚类对实时抵达的数据元组进行相应的预处理,确定类簇的数量与中心点位置,形成通过存在差异的宏簇构成的集合,粗聚类采用的算法为Canopy算法。将粗聚类得到的宏簇传至K-means算法,给出了K-means算法的详细步骤,通过K-means算法完成细聚类,介绍了整个细聚类详细步骤。实验结果表明,所提算法具有效率高、质量好、稳定性强等优势,可有效实现云计算环境下关联性实时流式大数据聚类。  相似文献   

7.
针对传统K-means算法的聚类结果依赖初始聚类中心的缺陷,提出了一种基于密度的改进K-means聚类算法,该算法选择位于数据集样本密集区且相距较远的数据对象作为初始聚类中心,实现K-means聚类。针对PAM算法时间复杂度高,且不利于大数据集处理的缺陷,提出了一种基于密度的改进K-medoids聚类算法,在选取初始中心点时根据数据集样本的分布特征选取,使得初始中心点位于不同类簇。UCI机器学习数据库数据集和随机生成的带有噪音点的人工模拟数据集的实验测试证明,基于密度的改进K-means算法和基于密度的改进Kmedoids算法都具有很好的聚类效果,运行时间短,收敛速度快,有抗噪性能。  相似文献   

8.
针对QCR-树聚类个数需事先确定和处理高维空间数据时面临着"维数灾难"的问题,通过自动确定K-means算法的聚类个数和初始聚类中心,来提高聚类质量,并对原始高维空间数据进行近似压缩来减少磁盘读写代价,提高查询效率,提出一种QAAR-树空间索引结构,同时给出QAAR-树的插入、删除和查询算法。实验结果表明,QAAR-树的查询性能优于QCR-树,能够有效地处理海量高维空间数据。  相似文献   

9.
针对传统聚类算法效率低、效果差和稳定性弱等弊端,提出一种新的云计算环境下关联性大数据实时流式可控聚类算法。介绍了关联性实时流式数据的定义和特点。通过粗聚类对实时抵达的数据元组进行相应的预处理,确定类簇的数量与中心点位置,形成通过存在差异的宏簇构成的集合,粗聚类采用的算法为Canopy算法。将粗聚类得到的宏簇传至K-means算法,给出了K-means算法的详细步骤,通过K-means算法完成细聚类,介绍了整个细聚类详细步骤。实验结果表明,所提算法具有效率高、质量好、稳定性强等优势,可有效实现云计算环境下关联性实时流式大数据聚类。  相似文献   

10.
传统K-means 算法对于聚类初始点的选取和距离度量的计算异常敏感,因而很可能导致K-means 算法只能收敛得到局部最优解。为此,提出一种改进的K-means 算法,即K-means 聚类算法最优匹配算法,并进行了相关的算法实验分析。该改进算法首先对传统的K-means 聚类算法进行初始点的选取,并分析聚类结果。然后,分别从初始聚类中心的选择和距离算法的确定进行实验测试,引入轮廓系数评价聚类效果,分析实验结果可知,K-means 聚类算法最优匹配算法具有较好的稳定性和较高的聚类准确率。  相似文献   

11.
一种改进的K一均值聚类算法   总被引:2,自引:0,他引:2  
为了改进K-means聚类算法的不足,把混合粒子群优化算法引入到K-means聚类算法中,重新选取编码方式并构造适应度函数,在此基础上提出了一种改进的K-means聚类算法;通过两个经典数据集的测试,实验结果表明:改进的算法比K-means算法具有更好的全局寻优能力、更快的收敛速度,且其解的精度更高对初始聚类中心的敏感度降低.  相似文献   

12.
针对K-means++算法选取初始聚类中心计算误差平方和时, 实验次数对误差平方影响不准确的问题, 提出一种PK-means++算法. 结果表明, 该算法在进行分散数据聚类时, 在同一K值情形下, 聚类后的误差平方和较原K-means++算法更稳定, 从而更好地保证了随机实验取值的稳定性.  相似文献   

13.
针对临床路径决策分析聚类算法中聚类效果依赖于样本数据分布且处理数据效率低的问题,提出基于均衡分配方法的模糊K-means算法的临床路径决策方法.该算法利用文字数字化处理与加权计算来建立数据格式统一且关键属性突出的样本特征值矩阵;利用基于均衡分配方法的模糊K-means算法对上述样本进行聚类分析,得到最终的聚类中心与聚类结果,以此辅助医生进行临床路径决策.采用ECLIPSE编程进行仿真,与传统模糊K-means算法和基于减法聚类的FCM算法相比,采用该算法的迭代时间分别降低了26%与70%,迭代次数分别减少了33%和82%,平均目标函数最小值分别减小了32%和28%.实验表明,该算法能够有效降低聚类效果对于样本数据分布的依赖,同时数据聚类效率与质量也有显著的提高.  相似文献   

14.
针对K-means++算法选取初始聚类中心计算误差平方和时, 实验次数对误差平方影响不准确的问题, 提出一种PK-means++算法. 结果表明, 该算法在进行分散数据聚类时, 在同一K值情形下, 聚类后的误差平方和较原K-means++算法更稳定, 从而更好地保证了随机实验取值的稳定性.  相似文献   

15.
基于动态隧道系统的K-means聚类算法研究   总被引:1,自引:0,他引:1  
针对K-means聚类算法易陷入局部极小的问题,利用动态隧道算法在解决全局最优化问题中的有效性,将算法中的动态隧道过程引入到K-means聚类算法中,提出了一种基于动态隧道算法的K-means聚类算法.该算法在K-means聚类算法寻优得到的局部极小值基础上,利用动态隧道过程寻找更小的能量盆地,再将其值提交给K-means聚类算法进行迭代寻优,重复该过程,直到找到全局最小值.理论分析和仿真实验证明,该算法的聚类效果要优于K-means聚类算法.  相似文献   

16.
K-means算法是聚类方法中常用的一种划分方法.基于扩展划分的思想,提出了一种基于扩展的K-means聚类算法(EK-means),在一定程度上避免了聚类结果陷入局部解的现象,减少了原始K-means算法因采用误差平方和准则函数而出现将大的聚类簇分割开的情况.该算法使用了基于距离的技术来处理孤立点,引进了一种基于扩展的方法进行聚类.实验表明该算法可扩展性好,能够很好的识别出孤立点或噪声,并且有很好的精度.  相似文献   

17.
图像分割是图像处理中的重要环节,如何提高图像分割的准确度一直以来都是图像领域的研究重点及难点.K-means聚类算法作为经典聚类算法得到广泛应用,但是,k值的选取往往难以确定.针对这一问题,提出了一种改进的K-means算法.首先将输入的彩色图像转化为灰度图像,统计灰度直方图的峰值数,将其设定为聚类数k,然后对原图像的每个像素点进行聚类,实现分割.实验结果表明,与传统的K-means算法相比,该算法能够确定最佳的聚类数,并且分割效果好.  相似文献   

18.
为提高K-means算法全局搜索能力,提升聚类效果,提出一种基于近似骨架和混合蛙跳算法的K-means方法。该方法首先利用经典的混合蛙跳算法取代K-means算法中原有迭代公式,获得更优秀的聚类结果;然后对获得的聚类结果,使用基于近似骨架和混合蛙跳算法的K-means算法不寻找聚类中心,而是直接对簇的划分进行修改。UCI数据集实验结果表明,使用改进的聚类算法获得的聚类结果,较其他算法结果更为优秀。最后将改进后的聚类算法应用到医学眼底病历图像中,可以得到较好的血管切割效果。  相似文献   

19.
K-means算法以其简单、快速的特点在现实生活中得到广泛应用.然而传统Kmeans算法容易受到噪声的影响,导致聚类结果不稳定,聚类精度不高.针对这个问题,提出一种基于离群点检测的K-means算法,首先检测出数据集中的离群点,在选择初始种子的时候,避免选择离群点作为初始种子.然后在对非离群点进行聚类完成后,根据离群点到各个聚类的距离,将离群点划分到相应的聚类中.算法有效降低离群点对K-means算法的影响,提高聚类结果的准确率.实验表明,在聚类类别数给定的前提下,在标准数据集UCI上该算法有效降低离群点对K-means算法的影响,提高了聚类的精确率和稳定性.  相似文献   

20.
一种改进的K-means聚类算法   总被引:1,自引:0,他引:1  
传统的K-means聚类算法对初始聚类中心的依赖程度很大,聚类结果会随聚类中心的选择不同波动很大,为了消除这种中心选择不确定性,提出一种改进的K-means聚类算法,从而有效地改善初始聚类中心点选择的随机性,提高聚类结果的稳定性.仿真实验结果表明,改进后的K-means聚类算法优于传统的算法.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号