首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 39 毫秒
1.
对k-means聚类算法的改进研究   总被引:2,自引:0,他引:2  
本文从k-means算法出发,通过分析和比较,提出一种基于Kruskal算法和贪心策略的改进的k-means聚类算法,并对其进行实验分析,改进算法具有比较好的聚类效果,整体分布比较均匀,聚类效率得到了较大的提高。  相似文献   

2.
经典的分布式k-means聚类算法随机选取初始聚类中心,进行多次的迭代,容易使得聚类效率低,网络通信量大,而且聚类结果不稳定。针对这些问题,提出一种改进的分布式k-means聚类算法。该算法通过划分数据集,计算属性最密集的k个数据块作为聚类中心,以确保聚类中心的代表性,进而减少算法的迭代计算次数,提高聚类效率。通过在Hadoop分布式平台上进行实验,结果表明改进算法能减少迭代次数和收敛时间。  相似文献   

3.
传统的k-means聚类算法对初始聚类中心非常敏感,聚类的结果也常常随着初始聚类中心而波动。为了降低聚类算法的这种敏感性,本文提出了一种自适应的聚类算法(SA—K—means),该方法通过计算数据对象区域的密度,选择相互距离最远的高密度区域的中心作为初始聚类中心。实验表明SA—K—means聚类算法能有效地消除聚类算法对初始聚类中心的敏感性,得到满意的聚类结果。  相似文献   

4.
用k-means算法对二维数据进行聚类分析,并用C#语言实现了该算法。先按照样本点的距离进行初始划分,然后再按照各样本点和初始中点的距离远近进行聚类。结果表明,k-means算法对二维数据的聚类是有效的,实现该算法的程序对二维数据的聚类具有通用性。  相似文献   

5.
一种用于文本聚类的改进k-means算法   总被引:2,自引:0,他引:2  
k-means是目前常用的文本聚类算法,针对其最终搜索的局部极值与全局最优解偏差较大的缺点,采用一种基于局部搜索优化的思想来改进算法,并推导出目标函数的变化公式。根据目标函数值的改变对聚类结果作再次划分后,继续k-means迭代,拓展其搜索范围。理论分析和实验结果表明修改后的算法能有效地提高聚类的质量,且计算复杂度仍与数据集文本总数呈线性变化。  相似文献   

6.
基于k-means聚类算法的试卷成绩分析研究   总被引:1,自引:0,他引:1  
研究了k-means聚类算法,并将此算法应用于高校学生试卷成绩分析中.首先对数据进行了预处理,然后使用k-means算法,对学生试卷成绩进行分类评价.用所获得的结果指导学生的学习和今后的教学工作.  相似文献   

7.
针对经典k-means聚类算法的弊端进行一定程度上的改进,提出一种新的基于距离相等函数决定最佳聚类值的改进方法.实验采用两大类标准数据集来测试该算法,并和k-means算法的结果进行了比较,证实了该改进算法的有效性,解决了聚类数目k值的难确定性问题.  相似文献   

8.
为提高列车车轮踏面检测效率,设计了一套基于机器视觉的车轮踏面动态检测系统,分析了k-means聚类算法,通过加权欧式距离对该算法进行改进,利用聚类法具有保持最大相似性的特性,将基于加权欧式距离的k-means聚类算法用于机器视觉的图像处理。先对原始图像作图像增强、图像灰度化等预处理,再以特征聚类思想对图像作阈值分割,使图像中的各部分特征更加突出。图像处理结果显示,基于加权欧式距离k-means聚类算法的车轮踏面损伤视觉检测系统可以有效地检测出踏面损伤。  相似文献   

9.
介绍了 k -means 和 DBSCAN 聚类算法的基本原理和优缺点,针对传统聚类算法无法有效处理高维混合属性数据集的问题,对原有的数据归一化方法进行改进,在 k -means 和 DBSCAN 聚类算法的基础之上,结合增量聚类的思想和数据之间相异度的计算方法,提出了基于密度的增量 k -means 聚类算法,有效处理具有高维混合属性的数据集,改进了数据相异度的计算方法。  相似文献   

10.
针对传统阴阳k-means算法未利用数据结构导致计算效率较低的问题, 提出一种高效阴阳k-means聚类算法. 该算法根据数据相似性将原始数据进行逐层分解, 并建立满m叉树结构存储各层数据, 以树结构各叶子节点中存储的数据信息建立加权数据, 运行加权阴阳k-means算法得到收敛中心. 在原始数据中以加权数据收敛中心为初始化条件运行传统阴阳k-means算法进一步优化目标函数值. 在5组UCI数据集上与k-means、传统阴阳k-means及另外两种加速算法进行对比实验, 实验结果表明, 该算法具有较高的加速比, 且求解精度与传统阴阳k-means聚类基本相同.  相似文献   

11.
k-means聚类算法的MapReduce并行化实现   总被引:1,自引:0,他引:1  
针对k-means聚类算法特点,给出了MapReduce编程模型实现k-means聚类算法的方法,Map函数完成每个记录到聚类中心距离的计算并重新标记其属于的新聚类类别,Reduce函数根据Map函数得到的中间结果计算出新的聚类中心,供下一轮MapReduce Job使用.实验结果表明:k-means算法MapReduce并行化后部署在Hadoop集群上运行,具有较好的加速比和良好的扩展性.  相似文献   

12.
通过对用户推荐项目模式进行建模, 预测新用户的推荐项目归属类别, 从而推测出目标用户对具体推荐项目的评分. 实验结果表明: 该方法可以提高推荐服务的效率, 实用性较高.  相似文献   

13.
传统3DVM(3-Dimension Document Vector Model)由于没有使用新闻报道的时间因子,这使得该模型表示的新闻报道具有不准确性,进而影响新闻报道的聚类结果.本研究在三维文档向量模型的基础上加入了时间因子,提出了四维文档向量模型表示新闻报道.最后,用k-means聚类算法进行新闻报道的的无监督聚类.实例验证结果表明本文提出的4DVM和k-means相结合的聚类算法优于3DVM以及VSM(vector space mode)和k-means相结合的聚类算法.  相似文献   

14.
传统3DVM(3-Dimension Document Vector Model)由于没有使用新闻报道的时间因子,这使得该模型表示的新闻报道具有不准确性,进而影响新闻报道的聚类结果.本研究在三维文档向量模型的基础上加入了时间因子,提出了四维文档向量模型表示新闻报道.最后,用k-means聚类算法进行新闻报道的的无监督聚类.实例验证结果表明本文提出的4DVM和k-means相结合的聚类算法优于3DVM以及VSM(vector space mode)和k-means相结合的聚类算法.  相似文献   

15.
针对传统k-means聚类方法随机选择初始聚类中心而导致的收敛速度慢、聚类效果较差的问题,本文结合空间相似度度量提出一种改进的k-means初始聚类中心选择方法.该方法通过定义空间中样本的相似度,从而选择相似度较小的样本作为初始聚类中心,以减少达到聚类稳定状态的迭代次数,提高聚类的效率.UCI数据集上的实验结果表明,与传统k-means聚类方法相比,本文提出的改进的k-means初始聚类中心选择方法能够使聚类的收敛速度加快,得到良好的聚类效果.  相似文献   

16.
针对传统k-means算法中初始聚类中心选取的随意性对于聚类结果影响较大的问题,提出了基于Leader算法的k-means改进算法——Lk-means算法.该算法有效避免了初始聚类中心选取的边缘化和随意性.实验证明,Lk-means算法的聚类结果更加有效合理.  相似文献   

17.
随机选择初始聚类中心的k-means算法易使聚类陷入局部最优解、聚类结果不稳定且受孤立点影响大等问题.针对这些问题,提出了一种优化初始聚类中心的方法及孤立点排除法.该算法首先选择距离最远的两点加入初始化中心,再根据这两点将原始簇分成两个聚簇,在这两个簇中挑选方差较大的簇按照一定的规则进行分裂直至找到k个中心,初始中心的选择过程中用到孤立点排除法.在UCI数据集及人造含一定比例的噪音数据集下,通过实验比较了改进算法与其他算法的优劣.实验表明,改进后的算法不仅受孤立点的影响小、稳定性好而且准确度也高.  相似文献   

18.
一种改进的聚类和孤立点检测算法   总被引:1,自引:0,他引:1  
对基于距离的聚类及基于密度的孤立点检测方法进行了分析研究,提出了一种基于距离和密度的聚类和孤立点检测算法DDBCOD.该算法根据距离和密度阈值对数据进行聚类,并发现数据中的孤立点.实验表明,该算法能够识别任意形状的聚类,对高维数据有效,能够很好地识别出孤立点.  相似文献   

19.
依据图书馆的现有信息,结合数据挖掘的流行方向,应用聚类算法分析研究读者的借阅行为,获得对图书馆管理有用的信息,提高图书馆管理工作效率和资源利用率。  相似文献   

20.
为获得分布式数据集上用户所期望的聚类结果,提出了基于约束信息的并行k-means聚类算法.在分析并行k-means能够有效实现对水平分布式数据集进行聚类的基础上,修改并行k-means算法的目标函数,设计约束并行k-means算法,将站点用户的约束信息以chunklet的形式引入到分布式聚类过程,从而引导算法执行有偏搜...  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号