首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 78 毫秒
1.
一种高效并行关联规则挖掘新算法   总被引:1,自引:0,他引:1  
提出了一种在微机集群上实现的高效并行算法。该算法利用矩阵理论中上三角矩阵的良好性质,通过数据库约简、投影等操作,在微机集群的各节点上开展并行挖掘,从而提高挖掘算法的效率和可扩性。在微机集群上的实验证明,该算法能大大提高关联规则的挖掘效率,并具有良好的可扩性。  相似文献   

2.
一种基于Hadoop的并行关联规则算法   总被引:1,自引:0,他引:1  
在挖掘大型数据库的关联规则时,使用并行计算是必需的.针对传统的并行计算,存在不能处理节点失效,难以处理负载均衡等问题,提出基于Hadoop架构实现并行关联规则计算的设计.理论和实验证明,基于Hadoop的并行关联规则计算,能处理节点失效,并且能做到节点负载均衡.  相似文献   

3.
随着计算机技术和通信技术的不断发展,用户存储了越来越多、具有很高使用价值的信息,不断涌现的大量信息在给人们带来方便的同时也带来了问题,怎样提取有用信息使得数据挖掘技术应运而生.关联分析是数据挖掘的本质,关联规则挖掘是进行关联分析最常用的方法.在关联规则的Apriori算法的基础上,指出了该算法的不足之处,提出了一种新的改进算法,从而增强了算法的适应性.  相似文献   

4.
一种高效关联规则挖掘算法   总被引:1,自引:0,他引:1  
为了提高关联规则挖掘算法处理数据库的效率,在研究AprioriTid算法的基础上提出一种高效的关联规则挖掘算法AprioriTidD,在计算数据库中的频繁项集时依靠有效的裁剪减少无效项集的产生,并且可减少产生候选项集,从而有效地提高算法的效率.选取程序模拟超市购物产生的3个试验数据集,应用AprioriTidD算法对该...  相似文献   

5.
基于并行遗传算法的关联规则挖掘   总被引:5,自引:4,他引:1  
根据关联规则挖掘的要求与特点,结合并行遗传算法的思想,通过定义适应度函数,讨论了并行遗传算法在数据挖掘中的应用.结合一个实例,提出了基于并行遗传算法的关联规则的提取算法.  相似文献   

6.
一种新的多级关联规则高效挖掘算法   总被引:1,自引:1,他引:1  
提出一种新的多级关联规则挖掘算法,该算法采用自中间开始并基于集合运算的方法来求频繁集,在求解过程中不需要建立复杂的hash树,并且避免了挖掘初期在每个模式中产生大量的支持事务集,从而减少了I/O操作,提高了挖掘的效率.  相似文献   

7.
提出一种从大型数据库中挖掘关联规则的快速算法——自适应快速关联规则提取算法。该算法以经典的Apriori算法及其他各种优化算法为基础,引入了自适应步长和扫描树的概念,并采用修剪法对Apriori算法进行了改进。理论分析与实验结果表明,该算法比Apriori算法的应用效率高,同时也证实了其有效性。  相似文献   

8.
通过关键字等相关属性之间的联系,在不进行连接操作的前提下,探讨任意多表间关联规则的数据挖掘问题.给出相关的数据结构以及具有较好并行度的算法,并对算法作定性分析.  相似文献   

9.
一种基于关联规则的缺省规则挖掘算法   总被引:2,自引:1,他引:2  
传统的基于Rough集的缺省规则挖掘算法须计算差别矩阵并生成大量的条件属性类,挖掘效率低.为此,本文引入相容关联规则和决策关联规则的概念,提出基于关联规则的缺省规则挖掘算法——DRMBAR,该算法借助FP-tree存储结构挖掘出决策关联规则,并用相容关联规则性质对决策关联规则进行有效修剪后生成相应的缺省规则,DRMBAR可有效地过滤噪声、提高缺省规则挖掘效率,且克服了传统算法依赖于主存的限制,为缺省规则的挖掘提供了一种新的框架。实验结果表明该算法是有效且可行的。  相似文献   

10.
在对经典的关联规则算法进行了分析后,通过引入多维链表结构,提出了利用事务集合匹配运算和链表操作高效地挖掘关联规则的算法ARM LL.实验结果表明该算法是可行的,并具有较高的效率.  相似文献   

11.
针对海量数据的关联规则挖掘问题,提出了一种有效的基于等价类划分的并行频繁闭项集挖掘算法.该算法在MapReduce框架下,通过等价类的产生与划分、数据集的分配、异步频繁闭项集挖掘和汇总等步骤,不但较好地解决了多节点间的负载均衡问题,而且易于获得可靠的频繁闭项集.实验表明,该算法能有效克服传统算法挖掘效率低、冗余规则较多的缺点,整体上具有较高的性能.  相似文献   

12.
基于数组的频繁项目集的挖掘算法   总被引:4,自引:0,他引:4  
挖掘关联规则是数据挖掘研究的一个重要方面.然而,目前提出的算法仍存在一些问题,如复杂的数据结构、大量的候选频繁项目集生成等等.本文提出使用了一种简单的数据结构——数组,并提出了基于数组的一种新的频繁项目集的挖掘算法.  相似文献   

13.
根据经典Apriori性质和算法思想,提出了一种基于关联矩阵的挖掘频繁项集的算法.应用实例分析表明,该算法在挖掘过程中,只需扫描一次数据库,有效地减少了扫描数据库的次数,提高了算法的效率.  相似文献   

14.
在经典的频繁闭合项集挖掘算法中,如Closet与Closet+,当条件模式数据库很庞大时,频繁项集的数目将会急剧增长,算法的效率会逐步恶化,并且算法挖掘结果的有效性也随着大量冗余模式的产生而下降.本文首先针对传统的FP-tree的算法,给出了一种改进的FP—tree算法,然后在新算法的基础上,提出新的频繁闭合项集挖掘算法,该算法只需把FP-Tree中所有由叶子结点到根结点的路径遍历一遍,就可以得到各项的所有子条件模式基,避免了传统FP-tree算法在同一条路径上向前回溯比较的繁琐.实验表明优化后的算法避免了资源的耗费,减少了频繁闭合项集挖掘的运算开销,大大提高了数据挖掘的效率.  相似文献   

15.
随着数据库规模的增加或支持度阈值的减少,频繁模式的数量将以指数形式增长,FP-growth算法运行的时空效率将大为降低.本文提出一种基于格的快速频繁项集挖掘算法LFP-growth,算法利用等价关系将原来的搜索空间(格)划分成若干个较小的子空间(子格),通过子格间的迭代分解,将对网格P(I)的频繁项集挖掘转化为对多个子格的并集进行的约束频繁项集挖掘.实验结果和理论分析表明,在挖掘大型数据库时,LFP-growth算法的时间和空间性能均优于FP-growth算法.  相似文献   

16.
更新挖掘最大频繁项目集是多种数据挖掘应用中的重要问题,其发现过程的高花费要求对高效更新挖掘算法进行研究.提出了一种快速的更新挖掘最大频繁项目集算法,其能够在原有挖掘结果的基础上,有效地挖掘出更新后的数据库中隐含的新最大频繁项目集.  相似文献   

17.
在ECLAT算法的基础上,提出一种新的频繁项集挖掘算法——DS-ECLAT算法。该算法使用回写集和深度搜索最长项集两项新技术,在每次迭代中,无须扫描整个数据库,对于(K+1)项集的探索仅依赖于K项集,并生成K项回写集,下一次迭代时吸取这些回写集,减少了交运算的次数,提高了算法的执行效率。相对于ECLAT算法,新算法减少了内存的需要,具有更好的可伸缩性。  相似文献   

18.
分布式全局频繁项目集的快速挖掘方法   总被引:8,自引:1,他引:8  
针对传统的分布式全局频繁项目集挖掘算法存在大量的候选项目集,且求全局频繁项目集的网络通信代价过高等问题,提出了一种分布式数据库的全局频繁项目集快速挖掘算法(FDMA).该算法改进了频繁模式树(FP-树)的结构,将双向FP-树改为单向,每个节点只保留指向父结点的指针,减少了指针数,由此可节省1/3的树空间;同时通过传送用3个很小的数组表示的被约束子树,在此挖掘全局频繁项目集的过程中不再生成大量候选项目集或条件FP-树,从而减小了网络通信量,提高了挖掘效率.实验表明,所提算法的挖掘速度比传统的分布式数据库数据挖掘算法至少提高了1倍之多,随着数据库规模的增大,它的扩展性将更好.  相似文献   

19.
为提高挖掘频繁项集的效率,在垂直数据格式下,结合分治思想提出一种基于分治策略与位运算频繁项集挖掘算法DC-FIMBII。利用分治将数据库中的事务划分为多个非重叠部分,对每一部分采用位运算求交计算支持度,从而减少操作时项集的规模和项集的比较次数。在mushroom、pumsb_star和T40I10D100K等数据集上,对DC-FIMBII、Apriori、Eclat、DF-FIMBII等算法进行比较。实验表明,DC-FIMBII具有更高的效率。  相似文献   

20.
针对Apriori算法的不足,提出了一种新的优化算法——IApriori.该算法应用散列技术优化产生频繁-2项集,优化连接操作减少连接判断的次数,通过对候选项集编码来减少扫描数据库的次数,优化逻辑"与"运算减少不必要的"与"操作次数,缩短生成频繁项集的时间.IApriori算法仅需3次扫描数据库.研究结果表明,该算法具有快速、直观、节省内存等优点.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号