Hadoop框架下的一种改进的Apriori算法 |
| |
引用本文: | 王青松,姜富山.Hadoop框架下的一种改进的Apriori算法[J].辽宁大学学报(自然科学版),2019,46(3). |
| |
作者姓名: | 王青松 姜富山 |
| |
作者单位: | 辽宁大学 信息学院,辽宁 沈阳,110036;辽宁大学 信息学院,辽宁 沈阳,110036 |
| |
摘 要: | 常见的基于Hadoop框架的Apriori改进算法在统计支持度时有扫描数据集、候选项集剪枝等方面效率低下且集群间的数据传输有较大的时间开销的问题,提出了一种Apriori的改进算法Apriori_Ind.算法运用Hadoop集群,使用先按事务对数据集分块,再将数据集的格式转换为项,事务集的分块处理策略,使算法充分利用分布式计算优势,实现各节点并行的实现候选项集生成与剪枝操作.并利用前项与后项的新结构表示频繁项集,新结构在各节点进行候选项集生成和剪枝时提高算法效率.Apriori_Ind具有减小集群传输代价、加速剪枝等优势.实验表明新算法适合大规模数据挖掘,特别是项的数量较大的情况下,算法性能有明显的提高.
|
关 键 词: | Apriori Hadoop 频繁项集 分布式计算 大数据 MapReduce |
本文献已被 CNKI 万方数据 等数据库收录! |
|