并行MapReduce模型下的一种改进型KNN分类算法 |
| |
引用本文: | 韦泽鲲,夏靖波,付凯,申建,陈珍.并行MapReduce模型下的一种改进型KNN分类算法[J].空军工程大学学报,2017,18(1):92-98. |
| |
作者姓名: | 韦泽鲲 夏靖波 付凯 申建 陈珍 |
| |
作者单位: | 空军工程大学信息与导航学院,西安,710077 |
| |
基金项目: | 陕西省科技计划自然基金重点项目(2012JZ8005) |
| |
摘 要: | 大数据时代带来数据处理模式的变革,依托Hadoop分布式编程框架处理大数据问题是当前该领域的研究热点之一。为解决海量数据挖掘中的分类问题,提出基于一种双度量中心索引KNN分类算法。该算法在针对存在类别域的交叉或重叠较多的大数据,先对训练集进行中心点的确定,通过计算分类集与训练集中心点的欧式距离,确定最相似的3个类别,然后以余弦距离为度量,通过索引选择找出K个近邻点,经过MapReduce编程框架对KNN并行计算加以实现。最后在UCI数据库进行比较验证,结果表明提出的并行化改进算法在准确率略有提高的基础上,运算效率得到了极大提高。
|
关 键 词: | 大数据 Hadoop 数据挖掘 双度量中心索引 MapReduce |
本文献已被 CNKI 等数据库收录! |
| 点击此处可从《空军工程大学学报》浏览原始摘要信息 |
| 点击此处可从《空军工程大学学报》下载免费的PDF全文 |
|