首页 | 本学科首页   官方微博 | 高级检索  
     

云计算环境中面向大数据的改进密度峰值聚类算法
作者姓名:郑冬花  叶丽珠  隋栋  黄锦涛
作者单位:1. 广州商学院信息技术与工程学院;2. 管理与科学大学研究生院;3. 北京建筑大学电气与信息工程学院;4. 澳门大学科技学院
基金项目:国家自然科学基金项目(61702026);;广州市哲学社会科学发展规划项目(2021GZGJ145);;教育部高等教育司产学合作协同育人项目(202002030019);
摘    要:对密度峰值聚类算法进行有效改进,计算各样本点之间的距离和各样本点局部密度,选择两者中较大的样本点作为聚类中心点,根据其余样本点与各中心点的距离设定样本点所属类别;引入K近邻算法对密度峰值聚类算法进行优化,求解各样本点的距离时只需要考虑其周围由邻近值决定的若干样本点,实现距离阈值的自动选取;根据距离矩阵计算样本点的密度,绘制决策图并选择簇内中心点,将剩余点根据密度值分配给离中心点距离最近的类;最后将K近邻-密度峰值聚类算法部署至Hadoop云计算平台,用于解决大规模数据聚类的问题。仿真结果表明,通过合理设置K近邻算法的近邻值k,K近邻-密度峰值聚类算法具有较好的大数据样本聚类性能,与常用聚类算法相比,该算法具有更高的聚类准确率和聚类效率,适用于大数据样本聚类。

关 键 词:大数据  云计算  密度峰值聚类  K近邻算法  决策图
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号