首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到17条相似文献,搜索用时 78 毫秒
1.
基于MapReduce并行的Apriori算法改进研究   总被引:2,自引:0,他引:2       下载免费PDF全文
基于MapReduce实现的Apriori简单并行算法,产生了大量值为1的键/值对,影响了算法效率.提出一种分组统计策略的Apriori并行算法,有效地减少了键/值对的产生.实验结果表明,改进的基于MapReduce并行的Apriori算法在时间性能上有了很大的提升,并且随着集群节点的增加,算法的加速比线性提高.  相似文献   

2.
基于云计算的Apriori算法设计   总被引:1,自引:0,他引:1  
对云计算技术和数据挖掘进行研究,分析Apriori算法,针对其局限性,提出优化方案,引入云计算中MapReduce模型,实现并行化。提出一种基于MapReduce的频繁项集挖掘方法,以提高算法的运行效率,降低算法执行所需的开销。  相似文献   

3.
为提高Apriori算法挖掘频繁项目集的效率,基于迭代式MapReduce模型对Apriori算法进行并行化,设计出了能够在云计算环境下进行频繁项目集挖掘的新算法.与传统的Apriori并行算法相比,新算法利用事务约减规则进行改进,减少了每次扫描时所需扫描事务的个数,能够显著减少运行时间.介绍了新算法的设计思想,研究了算法的性能.实验结果表明所提算法比已有方法具有更高的运行效率及较好的可扩展性.  相似文献   

4.
针对数据挖掘中经典的Apriori算法在计算频繁项目集时需消耗大量的时间缺点,文中利用多线程并行计算的特点,提出了基于线程并行计算的Apriori算法,该算法是将统计候选项目个数的任务交给多线程来执行,从而达到减少Apriori算法的运行时间。通过实验数据分析,该算法对减少Apriori算法的运行时间有很大的提高。  相似文献   

5.
阐述了BSP上的并行排序算法,进行了该算法的性能分析,并通过与PRAM—CRCW上快排序算法的比较,说明了该算法的可行性.  相似文献   

6.
分析了Apriori算法存在之不足,在此基础上提出了一种基于分区思想的IABP算法.该算法首先将待挖掘的数据集分成若干块,然后分别对各块进行挖掘.在挖掘过程中,只存储满足最小支持度的频繁项,并删除不满足最小支持度的非频繁项.测试结果表明,该挖掘方法降低了挖掘算法的时闻复杂度,提高了挖掘算法的效率.  相似文献   

7.
基于Apriori算法的经济指标关联分析   总被引:2,自引:0,他引:2  
经济发展的主要三大指标为:GDP、CPI、失业率。为了研究吞吐量与三大指标的关联,采用关联规则中经典的Apriori算法对大连市内港口货物、港口旅客、航空旅客的吞吐量以及GDP、CPI、失业率情况进行数据挖掘。结果表明,它们之间存在明显的联系。不仅为利用吞吐量来预测经济发展趋势提供理论依据,而且为制定有效的经济政策提供决策依据。  相似文献   

8.
关联规则是数据挖掘的一个重要研究内容,主要用于从大量数据集中挖掘出有价值的数据项之间的关联关系.典型案例是超市的购物篮分析,主要对顾客的购买记录数据库进行关联规则挖掘,可以发现顾客的购买行为.本文依据Apriori算法的两个基本性质,即任何大项集的子集一定是大项集,非大项集的超集一定是非大项集,对经典的Apriori算法要多次扫面事务数据库的问题,作了一些改进,并进行仿真计算,结果表明,改进的算法确实减少了扫描次数.  相似文献   

9.
全排列问题的递归算法结构清晰,可读性强.为了提高排列的效率,给出了全排列递归算法在MIMP-CREW模型和单指令多数据流的EREW模型上的并行化算法及实例分析.给出的算法成本是最低的.  相似文献   

10.
关联规则挖掘是数据挖掘中的研究的一个非常重要的分支,主要用于发现隐藏在数据库中数据的联系和一些有趣的规律。本文给出了关联规则概念及相关术语的定义,并阐述了关联规则Apriori算法以及对Apriori算法进行了举例与性能分析。  相似文献   

11.
由于传统的Apriori算法是串行的并且效率较低,分析了Apriori算法的计算过程,针对其原理设计了一种基于Mapreduce的并行Apriori改进算法.实验结果证明,改进的算法能较好地提高关联规则挖掘的效率,具有接近线性的加速比和良好的应用价值.  相似文献   

12.
k-means聚类算法的MapReduce并行化实现   总被引:1,自引:0,他引:1  
针对k-means聚类算法特点,给出了MapReduce编程模型实现k-means聚类算法的方法,Map函数完成每个记录到聚类中心距离的计算并重新标记其属于的新聚类类别,Reduce函数根据Map函数得到的中间结果计算出新的聚类中心,供下一轮MapReduce Job使用.实验结果表明:k-means算法MapReduce并行化后部署在Hadoop集群上运行,具有较好的加速比和良好的扩展性.  相似文献   

13.
一种基于Apriori的高效关联规则挖掘算法的研究   总被引:1,自引:0,他引:1  
为了从海量的信息资源库中进行析取、识别和发现潜在正确和有用、前所未知的、最终可理解的知识,从数据挖掘技术的研究入手,对关联规则挖掘算法Apriori算法的关键思想以及性能进行了研究,在此基础上分析和探讨了Apriori Mend算法,并给出了该算法的实现思想和步骤,同时通过实例说明了算法的执行过程,该算法提高了原算法的效率.  相似文献   

14.
针对Apriori算法的不足,提出了一种新的优化算法——IApriori.该算法应用散列技术优化产生频繁-2项集,优化连接操作减少连接判断的次数,通过对候选项集编码来减少扫描数据库的次数,优化逻辑"与"运算减少不必要的"与"操作次数,缩短生成频繁项集的时间.IApriori算法仅需3次扫描数据库.研究结果表明,该算法具有快速、直观、节省内存等优点.  相似文献   

15.
针对Apriori算法存在多次扫描数据库及产生大量候选项集的缺陷,提出了一种改进算法.该算法只需扫描数据库一次,并将事务变换成二进制存储到数据库,可节省存储空间、提高速度.实验结果表明,改进算法挖掘关联规则的效率有较大提高.  相似文献   

16.
在分析Apriori算法的基础上,介绍了该算法的C语言实现,包括频繁集的发现和关联规则的生成,为进一步研究关联规则提供了基础。  相似文献   

17.
Apriori算法是关联规则挖掘中最经典的算法,但它存在两大致命缺陷:需多次扫描数据库和产生海量的候选项目集。从这两个角度出发改进算法,提出了一种基于模式矩阵的高效改进算法(简称P-Matrix算法),使扫描数据库的次数减少为一次,同时不产生候选项目集而直接产生频繁项目集,从而使算法的时间复杂度和空间复杂度大大减少,有效地提高了Apriori算法的效率。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号