I-Apriori:一种基于Spark平台的改进Apriori算法 |
| |
引用本文: | 李庆鹏. I-Apriori:一种基于Spark平台的改进Apriori算法[J]. 科学技术与工程, 2017, 17(27) |
| |
作者姓名: | 李庆鹏 |
| |
作者单位: | 武警工程大学 |
| |
摘 要: | 针对Apriori算法在第二次迭代过程中产生大量候选集的弊端,在Spark大数据框架下,将Apriori算法进行并行化处理。提出一种基于Spark平台的改进Apriori算法——I-Apriori;该算法利用Spark基于内存计算的抽象对象(RDD)存储频繁项集,在第二次迭代中,通过使用改进的布隆过滤器存储频繁1项集,消除候选集生成,减少数据库扫描次数,提高算法效率。实验结果表明,相比基于Spark平台的Apriori算法进行性能评估,I-Apriori算法具有更优的性能,能够较大程度地提高大数据关联规则挖掘的效率。
|
关 键 词: | 内存计算框架 数据挖掘 关联规则算法 布隆过滤器 |
收稿时间: | 2017-03-01 |
修稿时间: | 2017-03-01 |
I-Apriori: An improved Apriori algorithm based on Spark platform |
| |
Affiliation: | Engineering University of the Armed Police Force |
| |
Abstract: | |
| |
Keywords: | spark data mining apriori bloom filter |
本文献已被 CNKI 等数据库收录! |
| 点击此处可从《科学技术与工程》浏览原始摘要信息 |
|
点击此处可从《科学技术与工程》下载全文 |
|