首页 | 本学科首页   官方微博 | 高级检索  
     检索      

基于MapReduce的频繁模式挖掘算法的优化
引用本文:王波,王怀彬,张超.基于MapReduce的频繁模式挖掘算法的优化[J].天津理工大学学报,2018(1):6-11.
作者姓名:王波  王怀彬  张超
作者单位:天津理工大学计算机科学与工程学院;
摘    要:分布式数据挖掘计算是大数据研究中非常重要的技术,现有的对频繁模式的分布式挖掘方法在处理大量数据集时仍然存在许多局限,如并行Apriori算法在多次扫描数据库过程中对I/O产生很大负担,并且有大量候选集产生.本文使用的FP-growth算法包括Fp-tree构建和频繁模式挖掘两个阶段.主要思想是在map阶段构建FP-tree之前,根据步长值及项目元素编码对FP-tree节点合并,并在shuffle阶段依据平衡算法划分给不同的reducer.平衡算法用来均衡工作负载.利用该算法来降低数据分配的随机性,避免数据挖掘阶段由于数据划分不均衡导致部分reducer开销过大的缺点.实验结果表明:与现有方法相比,在较大数据集情况下改进后的算法具有更好地运算效率和可伸缩性.

关 键 词:MapReduce  频繁模式挖掘  FP-growth算法  平衡算法

The optimization of frequent pattern mining algorithm based on MapReduce framework
Abstract:
Keywords:
本文献已被 CNKI 等数据库收录!
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号