基于云计算平台Hadoop的HKM聚类算法设计研究 |
| |
作者姓名: | 张淑芬 董岩岩 陈学斌 |
| |
作者单位: | 华北理工大学理学院;河北省数据科学与应用重点实验室 |
| |
摘 要: | 为有效解决传统K-means聚类算法在处理大规模数据集时面临的扩展性问题,提出了一种Hadoop K-means聚类算法.该算法首先根据样本密度剔除数据集中孤立点或者噪声点的影响,再利用最大化最小距离思想选取K个初始中心,使初始聚簇中心点最优化,最后用Hadoop云计算平台的Map Reduce编程模型实现算法的并行化.实验结果表明,该算法不仅在聚类结果上具有较高的准确率和稳定性,而且能够很好地解决传统聚类算法在处理大规模数据时所面临的扩展性问题.
|
本文献已被 CNKI 等数据库收录! |
|