基于spark框架的DBSCAN文本聚类算法期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

按检索

基于spark框架的DBSCAN文本聚类算法

引用本文：	宁建飞.基于spark框架的DBSCAN文本聚类算法[J].汕头大学学报(自然科学版),2018(2).

作者姓名：	宁建飞

作者单位：	罗定职业技术学院电子信息系

摘要：	针对DBSCAN算法性能上的瓶颈以及内存和I/O上的消耗严重,提出了一种大数据计算框架的并行聚类方案.选用Spark计算框架对DBSCAN算法进行并行化改进,利用SNN相似度图解决DBSCAN算法对高维数据密度定义模糊的问题,并且将DBSCAN算法运行在spark计算平台上,缓解了内存的不足.实验结果证明,该解决方案相对于单机的DBSCAN算法,聚类精度没有下降,并且通过横向的添加节点增加了运行内存,在缓解内存紧张的前提下降低了算法运行时间,和基于Hadoop的DBSCAN算法相比也有较好的加速比.
本文献已被 CNKI 等数据库收录！