共查询到19条相似文献,搜索用时 62 毫秒
1.
Fp-growth算法是当前挖掘频繁项目集算法中速度最快,应用最广,并且不需要候选集的一种挖掘关联规则的算法.但是,Fp-growth算法也存在着算法结构复杂和空间利用率低等缺点.在FP-tree结构的基础上提出了密集型数据最大频繁模式挖掘算法FP-DMax.算法FP-DMax只需要2次扫描数据库,在挖掘过程中不产生候选项集,大大提高了算法的时空效率.实验表明,算法FP-DMax在挖掘密集型数据最大频繁模式方面是高效的. 相似文献
2.
提出一种最大频繁模式挖掘的改进算法(FP-Imax),该算法引入一种与FP-tree类似的结构MFI-tree来存储所有的最大频繁项目集,并采用有效的子集检查方法进行优化,降低了算法的时空开销,提高了挖掘效率。实验表明,与FP-Max相比该算法的挖掘速度快两2—3倍。 相似文献
3.
王利军 《西昌学院学报(自然科学版)》2019,33(4):70-74
PITable-MAX是基于投影二维表的最大频繁模式挖掘算法。算法只需要遍历一次事务数据库,并将数据信息存入投影数据库中,在挖掘事务项时才会从投影数据库中提取相关的数据信息生成投影二维表,从而减少对内存空间的占用,算法虽然采用递归方式,但组合策略可实现减少条件投影二维表的规模,以达到减少空间;并结合减挖策略来减少挖掘事务项的个数,以达到提高挖掘效率的目的;实验验证了算法的可行性和优越性。 相似文献
4.
基于FP-tree的最大频繁项集挖掘算法 总被引:1,自引:0,他引:1
现有的最大频繁项集挖掘算法在支持度阈值较大情况下已达到较高性能,但在支持度阈值较小时,由于候选项集的快速增长,其性能往往不理想。文章提出了一种基于频繁模式树(FP-tree)存储结构的最大频繁项集挖掘算法——DMFIF算法,将FP-tree各分枝作为初始候选项集,并按维数和支持度递减排序,结合子集剪枝策略,自顶向下搜索挖掘最大频繁项集。实验结果表明,该算法在低支持度阈值下稠密数据集中挖掘长模式具有较好性能。 相似文献
5.
基于FP-tree最大频繁模式超集挖掘算法 总被引:1,自引:0,他引:1
数据挖掘应用中的最大频繁项集挖掘算法大多存在候选项目集冗余问题,造成时间和空间的浪费.针对此问题,通过构造条件FP-tree,对不符合要求的项目进行剪除并对MFIT算法进行改进,提出一种基于FP-tree的最大频繁模式超集挖掘算法.此算法无需产生大量的候选集,同时减少数据集扫描次数,降低数据库遍历时间,提高算法效率.实验证明,此算法在降低候选项目集冗余度的同时有效减少了算法运行时间. 相似文献
6.
《中南民族大学学报(自然科学版)》2016,(3):102-106
针对目前海量数据挖掘过程中存在着频繁项集挖掘效率低、冗余项集繁多的问题,提出了改进的频繁模式树和遗传算法(FPGA),该算法鉴于异构数据的差异性特征,采用改进的频繁模式树和基于MapReduce的并行遗传算法搜索最大频繁项集,缩小了搜索范围,提高了挖掘效率.实验结果表明:该算法在时间复杂度方面有了很大提高,与传统的FP_Growth算法相比,具有更好的加速比以及更高的执行效率. 相似文献
7.
频繁项集的挖掘是数据挖掘中的一个基础和核心问题,具有广泛的应用领域。由于它是数据挖掘过程中最耗时的部分,挖掘算法的好坏直接影响数据挖掘尤其是关联挖掘的效率和应用范围。 相似文献
8.
挖掘最大频繁项目集是许多数据挖掘中的关键问题.为克服早期基于Apriori的最大频繁项目集算法中的缺点,相继有多种挖掘最大频繁项目集方法被提出.其中对基于FP-tree的最大频繁项目集挖掘算法比较多,但对FP-tree中的结点的频度计数关注的很少.通过对FP-tree结构进行了仔细分析后,在FP-tree中结点的频度计数和集合理论的基础上,提出了一种新的最大频繁项目集挖掘算法USDMFIA(using set to discover maximum frequent itemsets algorithm).通过分析比较,显示此算法是有效的. 相似文献
9.
分布式数据库的精简频繁模式集及其挖掘算法 总被引:1,自引:0,他引:1
对分布式数据库关联规则的挖掘与精简表示进行了研究,把频繁闭项集和最大频繁项集的概念推广到分布式数据库中,提出了在分布式环境下的频繁模式集的精简表示方法,以及一种基于各站点的全局大项目集的全局频繁闭项集和全局最大频繁项集的挖掘算法.该算法具有占用空间少、通信量小等特点.最后用实例进行了证明. 相似文献
10.
鉴于高维数据的稀疏性和分类数据特点,探讨了专门针对高维分类数据的聚类方法.首先将原始数据集转换成频繁项集,再通过改造频繁模式树以及给出的剪切策略,挖掘出事务的最大频繁项集,并基于最大频繁项集(MFI)的两个属性,将具有相同MFI的对象归于一类,由此提出了基于最大频繁项集的聚类算法.通过对分类数据集的实验,表明该算法具有相当的稳定性、健壮性和有效性. 相似文献
11.
Becausemining complete set of frequent patterns from dense database could be impractical, an interesting alternative has been proposed recently. Instead of mining the complete set of frequent patterns, the new model only finds out the maximal frequent patterns, which can generate all frequent patterns. FP-growth algorithm is one of the most efficient frequent-pattern mining methods published so far. However,because FP-tree and conditional FP-trees must be two-way traversable, a great deal memory is needed in process of mining. This paper proposes an efficient algorithm Unid_FP-Max for mining maximal frequent patterns based on unidirectional FP-tree. Because of generation method of unidirectional FP-tree and conditional unidirectional FP-trees, the algorithm reduces the space consumption to the fullest extent. With the development of two techniques:single path pruning and header table pruning which can cut down many conditional unidirectional FP-trees generated recursively in mining process, Unid_ FP-Max further lowers the expense of time and space. 相似文献
12.
FP-growth算法是一个挖掘频繁模式的有效算法,但它在挖掘过程中需要产生大量的条件FP树,因此其时空效率不够理想。提出了DFP-mine算法,通过在改进的FP树上合并子树来挖掘频繁模式,并在挖掘过程中结合了自顶向下和自底向上的双向搜索策略。理论分析和实验表明本文提出的算法具有较好的时空效率。 相似文献
13.
频繁序列模式挖掘算法 总被引:5,自引:0,他引:5
为解决从数据库中挖掘长模式和支持度较低时可能遇到计算复杂度较高的问题,提出一种新的算法--EFSPAN(Effective Frequent Sequential PAtterN mining algorithm).算法采用了深度优先挖掘策略,并将基于前缀序列格的深度优先遍历与两种高效的剪枝策略相结合.实验结果表明:新算法在模式较长和支持度较低时,能使搜索空间中60%以上的节点免被搜索;从而大大缩小了搜索空间,降低了序列模式挖掘算法的计算复杂度. 相似文献
14.
快速频繁序列模式挖掘算法 总被引:3,自引:1,他引:3
为解决从数据库中挖掘长模式可能遇到较高的计算复杂度问题, 提出一种新的算法FFSPAN. 传统上, 要判断一个序列是否频繁, 需要在原数据库中判断整个序列是否频繁; 而算法FFSPAN是通过在序列数据库中寻找一个频繁项或一个频繁项集来代替寻找一个完整的频繁序列, 而且FFSPAN算法每次扫描的数据库都是迅速减小的, 这使得算法在挖掘的序列模式越长时越有效. 在标准测试数据集上的实验结果表明, FFSPAN算法非常有效. 相似文献
15.
本文介绍了知识发现中关联规则挖掘算法的基本思想及其性能,分析了FP-tree算法在关联规则挖掘中存在耗费巨大空间存贮的问题,提出了一种运用投影技术改进的频繁模式增长算法,该算法大大改善FP—tree构造,实验结果表明,运用投影技术改进的频繁模式增长算法可以大大提高关联规则挖掘效果。 相似文献
16.
文章介绍了知识发现中关联规则挖掘算法的基本思想及其性能,分析了FP-tree算法在关联规则挖掘中存在耗费巨大空间存贮的问题,提出了一种运用投影技术改进的频繁模式增长算法,该算法改善FP-tree构造,实验结果表明,运用投影技术改进的频繁模式增长算法可以提高关联规则挖掘效果。 相似文献
17.
叶福兰 《成都大学学报(自然科学版)》2014,(2):148-150,162
基于条件模式树的最大频繁模式挖掘算法在挖掘过程中将扫描事务数据库两次,且产生了大量的候选项目集,产生最大频繁模式过程中比较次数较多,总体效率较低.提出改进后的最大频繁模式挖掘策略,利用二维表保存事务出现项目的情况,通过最大频繁模式的相关性质减少了挖掘的项数及产生的频繁模式集,减少比较的次数. 相似文献
18.
基于FP-tree频集模式的FP-Growth算法对关联规则挖掘的影响 总被引:9,自引:2,他引:7
通过对两个有代表性的算法Apriori和FP-Growth的剖析, 说明频集模式挖掘的过程 , 比较有候选项集产生和无候选项集产生算法的特点, 并给出FP-tree结构的构造方法以 及对挖掘关联规则的影响, 提出了对算法的改进方法. 相似文献
19.
采用填充字符的频繁序列模式挖掘算法 总被引:1,自引:0,他引:1
具有固定通配符间隔的频繁序列模式挖掘算法应具有删属性,从而保证在实际应用中能挖掘出有意义的长模式.而原有的问题定义集合存在一定的不足阻碍了该属性的实现.通过引入填充字符改变部分问题定义,解决原定义引起的一些极端性问题,并在模式挖掘过程中保证了完整性和有效性.将基于新定义集合提出的硒孙l算法与基于原定义集合的MMP算法分别在DNA序列上进行实验,结果表明算法实现了Apfiofi属性. 相似文献