海量用电数据并行聚类分析 |
| |
引用本文: | 刘晓悦,郭强.海量用电数据并行聚类分析[J].辽宁工程技术大学学报(自然科学版),2016(1):76-80. |
| |
作者姓名: | 刘晓悦 郭强 |
| |
作者单位: | 华北理工大学电气工程学院 |
| |
摘 要: | 针对用电数据量大、用电数据挖掘效率低等问题,采用理论分析和实验的方法,进行用电数据并行分析构架的研究,研究了Canopy和K-means两种典型的聚类算法,提出一种新的聚类思路,使用Canopy先对用电数据进行粗略处理,得到聚类个数和聚类中心,再用K-means精确聚类,既利用了K-means算法简单、收敛速度快的优势,又使其不容易陷入局部最优.为达到处理海量数据的目的,把提出的算法部署到MapReduce框架上进行实验.研究结果表明:提出的算法在海量用电数据的处理方面高效可行,并且具有良好的加速比.
|
关 键 词: | K-means算法 Canopy算法 云计算 MapReduce框架 聚类 |
本文献已被 CNKI 等数据库收录! |
|