首页 | 本学科首页   官方微博 | 高级检索  
     

基于Spark和SimHash的大数据K-近邻分类算法
引用本文:翟俊海,沈矗,张素芳,王婷婷. 基于Spark和SimHash的大数据K-近邻分类算法[J]. 河北大学学报(自然科学版), 2019, 39(2): 201. DOI: 10.3969/j.issn.1000-1565.2019.02.014
作者姓名:翟俊海  沈矗  张素芳  王婷婷
作者单位:河北大学数学与信息科学学院河北省机器学习与计算智能重点实验室,河北保定,071002;中国气象局气象干部培训学院河北分院,河北保定,071000
基金项目:河北省自然科学基金;河北大学自然科学研究项目;研究生创新项目;河北省研究生专业学位教学案例库建设项目
摘    要:在笔者之前的工作中,提出了一种基于MapReduce和SimHash的大数据K-近邻算法(H-MR-K-NN).虽然该算法能够有效解决大数据K-近邻算法的计算效率问题,运行时间远远低于基于MapReduce的K-近邻(MR-K-NN)所用的运行时间.然而,用MapReduce处理大数据时,需要从磁盘读取数据,再将中间结果写回磁盘,导致系统的I/O开销极大,这大大降低了MapReduce的效率.与MapReduce不同,Spark是一种基于内存的计算框架,它将数据第1次从磁盘读入内存,生成一种抽象的内存对象RDD(resilient distributed datasets).此后,Spark只操作内存中的RDD,计算过程只涉及内存读写,因此大幅提升了数据处理效率.基于这一事实,对算法H-MR-K-NN进行了改进,提出了一种改进的算法(简记为H-Spark-K-NN),可以进一步提高大数据K-近邻分类的运行效率.

关 键 词:内存计算框架  K-近邻  哈希技术  分类算法  大数据集  
收稿时间:2018-10-15

K-nearest neighbor algorithm for big data classification based on Spark and SimHash
ZHAI Junhai,SHEN Chu,ZHANG Sufang,WANG Tingting. K-nearest neighbor algorithm for big data classification based on Spark and SimHash[J]. Journal of Hebei University (Natural Science Edition), 2019, 39(2): 201. DOI: 10.3969/j.issn.1000-1565.2019.02.014
Authors:ZHAI Junhai  SHEN Chu  ZHANG Sufang  WANG Tingting
Affiliation:1. Key Laboratory of Machine Learning and Computational Intelligence of Hebei Province, College of Mathematics and Information Science, Hebei University, Baoding 071002, China; 2. Hebei Branch of ChinaMeteorological Administration Training Centre, China Meteorological Administration, Baoding 071000, China
Abstract:
Keywords:memory computing framework  K-nearest neighbor  hash technology  classification algorithms  big data sets  
本文献已被 CNKI 万方数据 等数据库收录!
点击此处可从《河北大学学报(自然科学版)》浏览原始摘要信息
点击此处可从《河北大学学报(自然科学版)》下载全文
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号