首页 | 本学科首页   官方微博 | 高级检索  
     检索      

面向大数据处理的划分聚类新方法
引用本文:卢志茂,冯进玫,范冬梅,杨朋,田野.面向大数据处理的划分聚类新方法[J].系统工程与电子技术,2014,36(5):1010-1015.
作者姓名:卢志茂  冯进玫  范冬梅  杨朋  田野
作者单位:1. 哈尔滨工程大学模式识别与自然计算研究室, 黑龙江 哈尔滨 150001; 2.大连理工大学计算机科学与技术学院, 辽宁 大连 116024; 3. 黑龙江科技大学电子与信息工程学院, 黑龙江 哈尔滨 150022; 4. 哈尔滨师范大学物理与电子工程学院, 黑龙江 哈尔滨 150025
摘    要:大数据处理是物联网研究和应用上不可回避的难题之一,针对常用聚类方法在大数据处理上的不足,设计了一种划分聚类新方法。该方法采用了大数据集的抽样技术,对多次抽取的规模足够大的样本进行聚类以确定自然簇质心的初始位置,在此基础上采用抽样后剩余数据样本对质心的初始位置进行更新,以便校正偏离理想位置的初始质心。该划分聚类算法具有线性空间复杂度和时间复杂度。实验结果表明所提的新聚类算法不仅能得到比常用聚类算法更理想的结果,而且运行速度快,适合处理大规模数据的聚类任务。


Novel partitional clustering algorithm for large data processing
LU Zhi-mao,FENG Jin-mei,FAN Dong-mei,YANG Peng,TIAN Ye.Novel partitional clustering algorithm for large data processing[J].System Engineering and Electronics,2014,36(5):1010-1015.
Authors:LU Zhi-mao  FENG Jin-mei  FAN Dong-mei  YANG Peng  TIAN Ye
Abstract:Large data processing is an inevitable problem for the internet of things research and application. To solve the shortcomings of large data processing with the common clustering methods, a novel partitional clustering method is designed. The new method determines the initial positions of natural cluster centroids by clustering the samples in sizes large enough, which are selected using the large data sampling method repeatedly. Next it updates the initial positions using the remaining data to correct the centroids positions deviating from the ideal positions. The designed partitional clustering algorithm has linear space and time complexity. The experimental results show that this new clustering algorithm can not only give better clustering results than common clustering algorithms, but also run fast and be suitable for large data clustering processing.
Keywords:
点击此处可从《系统工程与电子技术》浏览原始摘要信息
点击此处可从《系统工程与电子技术》下载免费的PDF全文
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号