基于Storm的分布式实时数据流密度聚类算法 |
| |
作者姓名: | 牛丽媛 张桂芸 |
| |
作者单位: | 天津师范大学计算机与信息工程学院 |
| |
摘 要: | 基于经典流聚类框架CluStream和密度聚类算法DBSCAN,提出了一种分布式实时数据流密度聚类算法DBS-Stream,并在Storm流式处理平台上设计了算法实现方案.该算法局部节点使用CluStream的两段式经典框架,在线微聚类中利用DBSCAN代替K-means初始化数据,在中心节点再使用DBSCAN算法进行全局聚类.该算法可解决任意型聚类问题,并可使局部节点快速更新数据.将DBS-Stream算法与CluStream算法进行比较,实验结果表明,本研究算法在聚类质量和通信代价方面均优于CluStream.
|
本文献已被 CNKI 等数据库收录! |
|