首页 | 本学科首页   官方微博 | 高级检索  
     检索      

基于spark框架的DBSCAN文本聚类算法
引用本文:宁建飞.基于spark框架的DBSCAN文本聚类算法[J].汕头大学学报(自然科学版),2018(2).
作者姓名:宁建飞
作者单位:罗定职业技术学院电子信息系
摘    要:针对DBSCAN算法性能上的瓶颈以及内存和I/O上的消耗严重,提出了一种大数据计算框架的并行聚类方案.选用Spark计算框架对DBSCAN算法进行并行化改进,利用SNN相似度图解决DBSCAN算法对高维数据密度定义模糊的问题,并且将DBSCAN算法运行在spark计算平台上,缓解了内存的不足.实验结果证明,该解决方案相对于单机的DBSCAN算法,聚类精度没有下降,并且通过横向的添加节点增加了运行内存,在缓解内存紧张的前提下降低了算法运行时间,和基于Hadoop的DBSCAN算法相比也有较好的加速比.

本文献已被 CNKI 等数据库收录!
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号