首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 309 毫秒
1.
针对Eclat算法连接和剪枝操作耗时的缺点,按照项集之间的可连接性,将数据集划分为等价类并分段存储,采用末项剪枝策略,在常量时间内完成连接和剪枝操作.针对Eclat算法求长集合的交集操作需要大量计算的缺点,采用多维数组分段存储项集的事务集,将长集合的求交集操作转换为分段求短集合的交集,并提出期望支持度的概念,在求交集的过程中预测支持度,从而减少求交集的比较次数.实验结果表明,该算法在时间性能方面优于Eclat算法,尤其适用于挖掘长模式稀疏数据集.  相似文献   

2.
为提高挖掘频繁项集的效率,在垂直数据格式下,结合分治思想提出一种基于分治策略与位运算频繁项集挖掘算法DC-FIMBII。利用分治将数据库中的事务划分为多个非重叠部分,对每一部分采用位运算求交计算支持度,从而减少操作时项集的规模和项集的比较次数。在mushroom、pumsb_star和T40I10D100K等数据集上,对DC-FIMBII、Apriori、Eclat、DF-FIMBII等算法进行比较。实验表明,DC-FIMBII具有更高的效率。  相似文献   

3.
设计了一种不同于传统关联规则挖掘算法(如Apriori算法等)频繁项集产生算法.该算法借鉴一般免疫算法思想,并从新的角度来看频繁项集的定义,避免了传统算法中存在的"项集生成瓶颈"问题.通过对mushroom数据的频繁项集挖掘的实验,与传统方法进行了比较,其结果表明,基于免疫算法的频繁项集挖掘算法在大数据集、低支持度情况下平均挖掘时间短.  相似文献   

4.
基于MapReduce的Eclat改进算法研究与应用   总被引:1,自引:0,他引:1  
针对Eclat算法在挖掘海量数据中的频繁项目集时存在的内存和计算资源不足等问题,将Eclat算法与目前流行的大规模数据集并行编程模型MapReduce结合,解决了Eclat算法在数据挖掘过程存在的瓶颈问题,运用于动车组故障诊断系统中,提高了关联规则挖掘的效率.  相似文献   

5.
频繁项集的挖掘不仅仅是关联规则挖掘的基础,而且在序列模式、聚类、多维模式等数据挖掘任务中扮演重要角色.本文在给出一个基于数据垂直分布的频繁项集挖掘算法HBMFP的基础上,论述了利用MFC中的树视图控件(CTreeCtrl)将频繁项集树形可视化,并讨论了基于该频繁模式树的3种约束频繁项集查询的方法.  相似文献   

6.
一种不确定性数据中最大频繁项集挖掘方法   总被引:1,自引:0,他引:1  
不确定性数据挖掘已经成为数据挖掘领域的新热点,频繁项集挖掘是重点研究的问题之一.但是目前出现的挖掘算法大多集中在完全频繁项集,而用于最大频繁项集和频繁闭项集的算法尚不多见.文中研究了一种基于UF-Tree的用于不确定性数据中挖掘最大频繁项集的算法,该挖掘过程分为两个步骤,第一步先得到以频繁1-项集为后缀的局部最大频繁项集,第二步得到所有的全局最大频繁项集,实验证明该算法性能良好且特别适用于稠密型、事务长度较小的数据集.  相似文献   

7.
针对当前关于数据流加权最大频繁项集WMFI(weighted maximal frequent itemsets)的研究无法有效地处理频繁阈值和加权频繁阈值不一致情况下WMFI的挖掘问题,提出了完全加权最大频繁项集FWM FI(full w eighted maximal frequent itemsets)的概念.为了减少naive算法在处理滑动窗口下完全加权最大频繁项集挖掘时存在的冗余运算,提出了FWMFI-SW(FWMFI mining based on sliding window over data stream)算法.所提出的算法通过基于频繁约束条件的优化策略减少了naive算法中M ax W优化策略的无效调用次数;采用编辑距离比率作为WMFP-SW-tree的重构判别函数,可以有效减少该树的重构次数.实验结果表明FWMFI-SW算法是有效的,且比naive算法更有时间优势.  相似文献   

8.
频繁项集的生成是关联规则挖掘中的关键问题,本文提出了一种基于无向项集图的频繁项集挖掘算法.应用优化算法对病人就诊数据进行挖掘分析,与传统的频繁项集挖掘算法相比,优化算法在执行效率上有明显的提高,对临床实践研究提供有价值的指导意见.  相似文献   

9.
针对不确定数据频繁项集挖掘效率低和准确度不高的问题,提出了一种基于改进的频繁模式树(FPtree)和遗传算法(GA)挖掘不确定数据概率频繁项集的方法,即UFPGA(基于频繁模式树和遗传的挖掘算法).该算法根据不确定数据的构成特征,改进频繁模式树方法挖掘不确定数据频繁项集,采用缩小变异空间和增加育种算子的遗传算法搜索最大频繁项集,收缩了搜索范围,提高了挖掘效率.实验结果表明:该方法在时间复杂度方面有很好的优越性,对大规模的不确定数据挖掘提供了一种有效的技术手段.  相似文献   

10.
基于图的最大频繁项集的生成算法   总被引:1,自引:0,他引:1  
挖掘频繁项集是数据挖掘的重要技术之一,目前已有很多经典算法,如:apriori算法,FP-tree等.挖掘频繁项集主要是寻找最大频繁项集,为了快速寻找最大频繁项集,通常采用削减候选项集、减少扫描数据库次数的方法和将自底向上与自顶向下的搜索方法结合起来(又称双向搜索).双向搜索能有效地缩减搜索空间.本文把基于图的关联规则挖掘和双向搜索的思想结合起来产生最大频繁项集,提出了基于图的最大频繁项集生成算法.此算法用图将数据映射到一个向量上,通过一遍扫描数据库就可以构造整个频繁项集,结合双向搜索,能快速生成频繁项集,对产生较大长度的最大频繁项集也有较好的效果.文末,把基于图的关联规则挖掘算法和基于图的最大频繁项集算法进行了比较,分析出性能差别的原因.  相似文献   

11.
不确定性数据的频繁项集挖掘的算法—U-apriori算法采用逐层迭代搜索方法,使用候选项集来找频繁项集.分析了U-apriori算法的流程和实现过程,并通过实验对比得出U-apriori算法花费较少时间和空间的优点,最后针对该算法的缺点提出了改进思路.结果表明:U-apriori算法是最佳概率频繁模式挖掘方法之一.  相似文献   

12.
在研究已有算法的基础上提出了一种频繁序列挖掘算法IDSG.该算法通过在频繁项(而不是频繁项集,即无需先求出所有频繁项集)间建立关联图,并在垂直数据库表达的基础上,借助简单的时态连接得到频繁序列完全集.整个过程只需扫描原始数据库两遍,有效减少磁盘I/O.另外,优化策略的正确运用,有助于减少候选序列的个数.分析及实验表明,较之同类算法,算法IDSG在效率上有了明显提高.  相似文献   

13.
提出了针对数据水平分布的分布式数据集下的全局最大频繁项集更新挖掘算法(UDMFI),用于解决当最小支持度阈值发生变化时全局最大频繁项集的更新挖掘问题.通过提出的带项目头表的频繁模式树(HFP-Tree)来存储数据,然后根据最小支持度阈值变小时,原最大频繁项集的集合中的元素一定是新最大频繁项集的集合中某些元素的子集的特性,以及最小支持度阈值变大时,原最大频繁项集中的一些最大频繁项集将可能不再是新最大频繁项集的集合中的最大频繁项集的特性,充分利用已挖掘的结果,从而减少挖掘过程中的费用.实验结果表明该算法具有较好的效率.  相似文献   

14.
针对目前海量数据挖掘过程中存在着频繁项集挖掘效率低、冗余项集繁多的问题,提出了改进的频繁模式树和遗传算法(FPGA),该算法鉴于异构数据的差异性特征,采用改进的频繁模式树和基于MapReduce的并行遗传算法搜索最大频繁项集,缩小了搜索范围,提高了挖掘效率.实验结果表明:该算法在时间复杂度方面有了很大提高,与传统的FP_Growth算法相比,具有更好的加速比以及更高的执行效率.  相似文献   

15.
Gen-Cluster:一个基因表达数据的高维聚类算法   总被引:1,自引:0,他引:1  
基因表达数据聚类是分析基因之间共调控关系的重要手段.挖掘子空间中表达值存在差异但变化趋势保守的序列已成为基因表达数据聚类的主要研究内容之一.在N-同维趋势相似定义的基础上,提出了一个基因表达数据的高维聚类算法Gen-Cluster,将基因表达值转化为序列形式,采用无重复投影且无候选生成的序列模式挖掘策略自底向上挖掘N-同维趋势模式,并解决了OP-Cluster算法不能挖掘含有项集的序列模式问题,最终得到表达值变化趋势保守的基因序列形成的N-同维趋势簇.实验采用Breast Tumor和MicroRNA表达数据集,验证挖掘结果是有效的,且较OP-Cluster算法表现更高效率,并涵盖其结果.  相似文献   

16.
为了解决负关联规则挖掘中包含负项目的频繁项集数量爆炸问题,引入过频繁项集的概念,证明过频繁项集及其所有超集均不可能产生有趣的关联规则。在频繁项集生成过程中,必须对项集中包含负项目的个数进行限制。使用最小支持度、最大支持度、项集中最多包含负项目的个数2个参数来约束频繁项集生成过程的算法。实验结果表明:所增加的两个参数是必要的,特别是当数据集中所包含的项目个数比较多时,只有恰当地设置两个额外参数,才能够保证挖掘过程的正常进行。  相似文献   

17.
针对关联规则在公安系统应用中存在的缺陷,提出了改进其效率的优化算法--矩阵交集方法和加权的思想.该算法通过构造有效的数据矩阵并且通过对数据矩阵的有效裁剪,达到查找频繁项集的目的,打破了Apriori算法由低到高逐层查找频繁项集的局限,极大地提高了产生最大频繁项集的效率,解决了重大刑事案件中的犯罪嫌疑人的筛选问题.  相似文献   

18.
鉴于高维数据的稀疏性和分类数据特点,探讨了专门针对高维分类数据的聚类方法.首先将原始数据集转换成频繁项集,再通过改造频繁模式树以及给出的剪切策略,挖掘出事务的最大频繁项集,并基于最大频繁项集(MFI)的两个属性,将具有相同MFI的对象归于一类,由此提出了基于最大频繁项集的聚类算法.通过对分类数据集的实验,表明该算法具有相当的稳定性、健壮性和有效性.  相似文献   

19.
负关联规则挖掘中的频繁项集爆炸问题   总被引:4,自引:0,他引:4  
为了解决负关联规则挖掘中包含负项目的频繁项集数量爆炸问题,引入过频繁项集的概念,证明过频繁项集及其所有超集均不可能产生有趣的关联规则。在频繁项集生成过程中,必须对项集中包含负项目的个数进行限制。使用最小支持度、最大支持度、项集中最多包含负项目的个数2个参数来约束频繁项集生成过程的算法。实验结果表明:所增加的2个参数是必要的,特别是当数据集中所包含的项目个数比较多时,只有恰当地设置2个额外参数,才能够保证挖掘过程的正常进行。  相似文献   

20.
最大频繁项集挖掘可以广泛应用在多种重要的Web挖掘工作中.为了有效地削减搜索空间,提出了一种新的最大频繁项集挖掘中的搜索空间剪枝策略.这种策略基于深度优先遍历词典序子集枚举树,利用树中子节点与父节点扩展集中相同项的扩展支持度相等的特性,对搜索空间进行剪枝.应用该策略,对MAFIA算法进行改进优化.实验结果表明,该剪枝策略可以有效削减搜索空间,尤其在稀疏但包含长频繁项集的数据集上,搜索空间削减掉2/3,算法的时间效率比原MAFIA算法提高3~5倍.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号