首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 31 毫秒
1.
网页分类器设计的核心是对原始分类数据集进行分类规则挖掘,本文提出了一种结合链接结构聚类的混沌粒子群网页分类规则获取算法.算法将聚类和分类结合起来进行分类规则提取:首先用基于K均值的聚类算法对一部分有代表性的链接结构数据聚类,进行类别自动标注,形成训练集;再用混沌粒子群算法对已标注类别的数据提取分类规则.实验结果表明,这种模式充分发挥了基于链接的分类方法受人为因素干扰最小的优点,减少了人工标注类别的工作量,同时提高分类的准确率和效率.  相似文献   

2.
K均值聚类算法初始质心选择的改进   总被引:3,自引:0,他引:3  
聚类分析在信息检索和数据挖掘等领域都有很广泛的应用,K均值聚类算法是一个比较简洁和快速的聚类算法,但是它存在着初始聚类个数必须事先设定以及初始质心的选择也具有随机性等缺陷,造成聚类的结果不是最优的。针对K均值聚类算法中的随机指定初始质心的缺点,提出了基于密度和最近邻相似度的初始质心选择算法,实验显示该算法可以生成质量较高而且较稳定的聚类结果,但是改进的算法需要事先设定最近邻相似度的阈值计算量较大等缺点,还有待改进。  相似文献   

3.
数据聚类是一个功能强大的技术,它能够把数据特征相似的对象划分为一类,但是并不是所有的聚类算法的实现都能产生相同的聚类结果;并且K均值算法的结果很大程度上依赖它的初始中心的选择;提出了一种新颖的关于K均值初始中心选择的策略;该算法是基于反向最近邻(RNN)搜索,检索一个给定的数据集,其最近的邻居是一个给定的查询点中的所有点;使用这种方法计算初始聚类中心结果发现是非常接近聚类算法所需的迭代聚类中心;对提出的算法应用到K均值聚类中给予了证明;用几种流行的数据集的实验结果表明了该算法的优点。  相似文献   

4.
先通过数据约简技术在不损失数据聚类结构的前提下对数据进行精简, 利用提出的近似模糊c均值聚类算法对精简后数据进行划分得到初始化中心, 再在该中心基础上通过模糊c均值聚类算法结合聚类有效性指标, 实现对数据的无监督聚类, 改进了无监督模糊c均值聚类算法聚类性能过分依赖初始化中心及大数据集下计算效率不理想的问题. 与已有算法的对比实验表明, 所提出的算法具有更高的求解精度与计算效率, 得到的聚类个数更合理.  相似文献   

5.
K均值算法利用K个聚类的均值作为聚类中心,通过对比样本到各聚类中心的距离,将样本划分到距离最近的聚类中,从而实现样本的聚类.分析了K均值算法的基本原理和实现步骤,并将其应用于数据聚类和图像分割,取得了较好的聚类效果.最后,针对K均值算法的不足之处,提出了改进措施,提高了K均值算法的聚类性能.  相似文献   

6.
基于免疫粒子群的K均值聚类算法   总被引:2,自引:0,他引:2  
粒子群算法是一类高效求解连续函数优化的随机搜索算法,在K均值聚类算法中得到广泛应用,但是在群体进化后期容易陷入局部极值,针对算法缺点,提出了一个新的聚类算法--基于免疫过程的粒子群K均值聚类算法,并将此算法与K均值聚类算法和粒子群K均值聚类算法进行比较.理论分析和数据实验证明,该算法有较好的全局收敛性,不仅能有效的克服传统的K均值聚类陷入局部极小值的缺点,而且全局收敛能力优于基于粒子群的K均值聚类算法.  相似文献   

7.
通过将粗糙集和模糊聚类算法相结合, 利用粗糙集中上近似集和下近似集的概念改进模糊聚类算法, 解决了模糊聚类边界不确定的问题, 得到了上近似集和下近似集的聚类结果, 从而实现更好的聚类, 改进算法可以处理边界问题和复杂数据问题. 将改进的粗糙集模糊聚类算法用于研究环糊精聚类, 并将聚类结果与K均值聚类分析算法、 模糊C均值聚类算法相比, 实验结果表明, 改进算法有较好的聚类效果.  相似文献   

8.
在K均值算法中, 对于随机的初始值选取可能会导致不同的聚类结果,甚至存在着无解的情况;还有该算法是基于梯度下降的算法,因此不可避免地常常陷入局部极优.针对K均值聚类算法存在的缺点,提出了一种新的聚类算法--基于粒子群的K均值聚类算法,理论分析和实验表明该算法有较好的全局收敛性,能有效地克服传统的K均值算法易陷入局部极小值的缺点,采用改进后聚类算法对电信客户数据进行聚类分析,得到具有不同特征的客户群组,聚类结果分析更合理清晰,更便于对不同群组采取不同的经营策略,为管理者提供了合理的决策支持.  相似文献   

9.
一种基于核的模糊聚类算法   总被引:6,自引:2,他引:4  
结合核技术与改进的模糊c均值算法聚类准则提出一 种基于核的模糊聚类算法. 通过引入核函数, 样本点被非线性变换映射到高维特征空间进行聚类, 提高了聚类性能. 同时, 算法改进了模糊c-均值聚类模型中的概率型约束条件, 使其对噪声和野值点具有较好的鲁棒性. 在真实数据和人造数据上与常用聚类算法进行了对比实验, 结果表明该算法具有较低的时间、 空间复杂度与较好的聚类性能.  相似文献   

10.
提出一种面向大规模数据的特征趋势推理算法. 首先, 采用Hash函数抽取大规模数据样本, 使用Pam聚类算法和并行K means聚类算法对大规模数据样本进行聚类, 获取最佳聚类结果后, 提取大规模数据聚类的动态特征; 其次, 采用基于特征趋势规则的推理算法, 构建大规模数据特征的趋势规则推理模型, 并通过累计趋势规则方法设计趋势规则算法, 推理大规模数据特征趋势, 解决了推理结果误差较大的问题. 实验结果表明, 该算法对大规模数据特征趋势推理的准确率均值为98.10%, 推理速度增长率为50%, 推理耗时最大均值仅为114.25 s, 能快速准确地完成数据特征趋势推理.  相似文献   

11.
针对划分聚类算法中聚类数K的取值工作量较大的问题, 提出一种新的Canopy+算法. 该算法可实现对聚类个数K的预判, 在保证准确率的前提下提高聚类工作效率.  相似文献   

12.
针对密度峰值聚类(DPC)算法在处理结构复杂、 维数较高以及同类中存在多个密度峰值的数据集时聚类性能不佳的问题, 提出一种基于K近邻和多类合并的密度峰值聚类(KM-DPC)算法. 首先利用定义的密度计算方法描述样本分布, 采用新的评价指标获取聚类中心; 然后结合K近邻思想设计迭代分配策略, 将剩余点准确归类; 最后给出一种局部类合并方法, 以防将包含多个密度峰值点的类分裂. 仿真实验结果表明, 该算法在22个不同数据集上的性能明显优于DPC算法.  相似文献   

13.
基于K均值的带变异粒子群聚类算法   总被引:1,自引:0,他引:1  
针对K均值算法的搜索结果依赖于初始聚类中心以及粒子群算法早熟收敛的缺点,提出了一种基于K均值的带变异粒子群聚类算法.该算法通过粒子群算法来弥补K均值算法的不足,根据粒子的收敛情况判断K均值操作的时机,提高了搜索性能,并采用变异操作来跳出局部极值.分别用K均值算法、PSO-K均值算法和该算法对3种实际数据进行了聚类测试,...  相似文献   

14.
针对K均值聚类算法易陷入局部最小的缺点,提出了一种多种群协同进化的微粒群和K均值混合聚类算法,它将整个种群分解为多个子种群,各子种群独立进化,周期性地更新共享信息.同时将此算法与现有的基于遗传算法的K均值聚类算法进行了比较.实验结果证明,该算法能有效地克服传统的K均值算法易陷入局部极小值的缺点,同时全局收敛能力优于基于遗传算法的K均值聚类算法.  相似文献   

15.
一种新的最近邻聚类算法   总被引:1,自引:0,他引:1  
在分析现有最近邻聚类算法所存在问题的基础上,提出了一种先利用均值规格化的思想来确定算法的初始半径,然后根据启发式规则修改聚类半径的新的最近邻聚类算法.同时,给出了聚类有效性函数对得到的聚类结果进行合理性判断.  相似文献   

16.
经典的 K 均值聚类算法是基于欧式距离的,它只适用于球形结构的聚类,而且在处理数据时不考虑变量之间的相关性和各变量的重要性差异.针对以上问题改进了 K 均值聚类算法,将马氏距离与 K 均值相结合,并在目标函数中增加变量权重因子和协方差矩阵调节因子,利用马氏距离优点有效地解决了 K 均值聚类算法的缺陷,最后通过实验证实了该方法的可行性和有效性  相似文献   

17.
针对K均值聚类随机初始聚类中心导致的聚类结果不稳定问题,提出一种基于仿射传播的聚类集成算法.该算法把每个聚类集成的成员个体结果看成是原始数据的一个属性,然后在其基础上对聚类成员个体的聚类结果进行加权集成,集成算法采用简单高效的仿射传播聚类,并且提出了直接集成、利用平均规范化互信息(NMI)和聚类有效性Silhouette指标进行加权集成.最后,运用Hungarian算法对仿射传播聚类集成的结果进行类别标签的统一和匹配.在加州大学尔湾分校数据集上进行了实验,结果表明,与集成前的K均值聚类及其他聚类集成算法相比,该算法能有效地提高聚类结果的准确性、鲁棒性和稳定性,建立起来的聚类集成算法具有良好的扩展性和灵活性,而且简单有效.  相似文献   

18.
为迅速、准确、无过多人工干预的进行图像分割,提出了一种K最近邻算聚类方法并将其应用于图像处理。与经典K最近邻算法在样本库中寻找最近邻点不同,该算法在待分割图像的RGB空间中寻找每一个像素点的K个最近邻点,参考所有像素点同最近邻点之间的平均距离,引入聚类阈值并对像素点的归属进行判断。对火焰图像的分割实验结果表明,在分割精度相接近的情况下,该算法的分割速度要快于其它几种常见算法。  相似文献   

19.
针对K-means++算法选取初始聚类中心计算误差平方和时, 实验次数对误差平方影响不准确的问题, 提出一种PK-means++算法. 结果表明, 该算法在进行分散数据聚类时, 在同一K值情形下, 聚类后的误差平方和较原K-means++算法更稳定, 从而更好地保证了随机实验取值的稳定性.  相似文献   

20.
针对K-means++算法选取初始聚类中心计算误差平方和时, 实验次数对误差平方影响不准确的问题, 提出一种PK-means++算法. 结果表明, 该算法在进行分散数据聚类时, 在同一K值情形下, 聚类后的误差平方和较原K-means++算法更稳定, 从而更好地保证了随机实验取值的稳定性.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号