基于MapReduce的频繁模式挖掘算法的优化 The optimization of frequent pattern mining algorithm based on MapReduce framework期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

按检索

基于MapReduce的频繁模式挖掘算法的优化

引用本文：	王波,王怀彬,张超.基于MapReduce的频繁模式挖掘算法的优化[J].天津理工大学学报,2018(1):6-11.

作者姓名：	王波王怀彬张超

作者单位：	天津理工大学计算机科学与工程学院;

摘要：	分布式数据挖掘计算是大数据研究中非常重要的技术,现有的对频繁模式的分布式挖掘方法在处理大量数据集时仍然存在许多局限,如并行Apriori算法在多次扫描数据库过程中对I/O产生很大负担,并且有大量候选集产生.本文使用的FP-growth算法包括Fp-tree构建和频繁模式挖掘两个阶段.主要思想是在map阶段构建FP-tree之前,根据步长值及项目元素编码对FP-tree节点合并,并在shuffle阶段依据平衡算法划分给不同的reducer.平衡算法用来均衡工作负载.利用该算法来降低数据分配的随机性,避免数据挖掘阶段由于数据划分不均衡导致部分reducer开销过大的缺点.实验结果表明:与现有方法相比,在较大数据集情况下改进后的算法具有更好地运算效率和可伸缩性.
关键词：	MapReduce 频繁模式挖掘 FP-growth算法平衡算法
The optimization of frequent pattern mining algorithm based on MapReduce framework

Abstract:

Keywords:
本文献已被 CNKI 等数据库收录！