首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到10条相似文献,搜索用时 15 毫秒
1.
NB-MAFIA: 基于N-List的最长频繁项集挖掘算法   总被引:1,自引:0,他引:1  
本文在深度优先搜索的框架上, 引入基于项集前缀树节点链表的项集表示方法N-List, 提出一个高效的最长频繁项集挖掘算法NB-MAFIA。N-List的高压缩率和高效的求交集方法可以实现项集支持度的快速计算, 同时采用对搜索空间的剪枝策略和超集检测策略来提高算法效率。在多个真实和仿真数据集上, 通过实验评估了NB-MAFIA和两个经典算法。实验结果表明NB-MAFIA在多数情况下优于其他算法, 尤其在真实和稠密数据集上优势更为明显。  相似文献   

2.
基于图的最大频繁项集的生成算法   总被引:1,自引:0,他引:1  
挖掘频繁项集是数据挖掘的重要技术之一,目前已有很多经典算法,如:apriori算法,FP-tree等.挖掘频繁项集主要是寻找最大频繁项集,为了快速寻找最大频繁项集,通常采用削减候选项集、减少扫描数据库次数的方法和将自底向上与自顶向下的搜索方法结合起来(又称双向搜索).双向搜索能有效地缩减搜索空间.本文把基于图的关联规则挖掘和双向搜索的思想结合起来产生最大频繁项集,提出了基于图的最大频繁项集生成算法.此算法用图将数据映射到一个向量上,通过一遍扫描数据库就可以构造整个频繁项集,结合双向搜索,能快速生成频繁项集,对产生较大长度的最大频繁项集也有较好的效果.文末,把基于图的关联规则挖掘算法和基于图的最大频繁项集算法进行了比较,分析出性能差别的原因.  相似文献   

3.
基于FP-tree的最大频繁项集挖掘算法   总被引:1,自引:0,他引:1  
现有的最大频繁项集挖掘算法在支持度阈值较大情况下已达到较高性能,但在支持度阈值较小时,由于候选项集的快速增长,其性能往往不理想。文章提出了一种基于频繁模式树(FP-tree)存储结构的最大频繁项集挖掘算法——DMFIF算法,将FP-tree各分枝作为初始候选项集,并按维数和支持度递减排序,结合子集剪枝策略,自顶向下搜索挖掘最大频繁项集。实验结果表明,该算法在低支持度阈值下稠密数据集中挖掘长模式具有较好性能。  相似文献   

4.
针对不确定数据频繁项集挖掘效率低和准确度不高的问题,提出了一种基于改进的频繁模式树(FPtree)和遗传算法(GA)挖掘不确定数据概率频繁项集的方法,即UFPGA(基于频繁模式树和遗传的挖掘算法).该算法根据不确定数据的构成特征,改进频繁模式树方法挖掘不确定数据频繁项集,采用缩小变异空间和增加育种算子的遗传算法搜索最大频繁项集,收缩了搜索范围,提高了挖掘效率.实验结果表明:该方法在时间复杂度方面有很好的优越性,对大规模的不确定数据挖掘提供了一种有效的技术手段.  相似文献   

5.
频繁项集挖掘是数据挖掘的一个热点,频繁项集的精简表示有助于减少频繁项集的数量,是频繁项集挖掘中的一个关键性问题。文章在总结频繁项集的相关精简模型后,对频繁项集精简模型,生成器精简表示模型进行研究。传统的生成器精简表示模型每次生成都需要扫描数据库,效率不高。本文提出一种新颖的频繁项集精简算法FPASCAL,使用FP树数据结构代替数据库再结合剪枝策略。理论分析及实验证明该方法在时间性能和空间复杂度上都优于传统方法。  相似文献   

6.
为了提高数据挖掘算法在中医药数据处理中的效率,提出了采用TCMA算法挖掘TCM-FP树中的维间最大频繁项集。根据中医药数据的特点及药组挖掘的需求,在FP-growth算法的基础上,提出了TCM-FP树及其建树算法和挖掘算法TCMA,在TCM-FP树中采用优化搜索策略挖掘维间最大频繁项集,与FP-growth算法挖掘所有频繁项集比,大大缩短了时间。优化搜索算法切合中药TCM规则挖掘的实际意义,比FP-growth算法挖掘有更高的运行效率。  相似文献   

7.
一种快速发现最大频繁项集的挖掘算法   总被引:1,自引:0,他引:1  
文章分析了关联规则发现中关于频繁项集的生成与测试方法,提出一种快速挖掘最大频繁项集的算法MFIA_VTL。该算法针对数据库的垂直事务标识列表结构对项集搜索空间进行基于前缀的划分,来发现最大频繁项集。实验表明,该算法性能稳定,可扩展性好。  相似文献   

8.
张长胜 《科学技术与工程》2013,13(23):6739-6745
提出一个数据流环境下的基于概念格和滑动窗口的频繁项集挖掘算法DSFMCL。算法在滑动窗口内分批挖掘新流入的基本窗口频繁概念后,生成概念格的Hasse图。引入最小支持度ζ和误差因子ε对非频繁概念节点进行剪枝操作。Hasse图中各节点包含频繁项集及其支持度信息。随着新基本窗口的Hasse图的生成与滑动窗口进行概念格纵向合并,最终通过对全部Hasse图节点的扫描可以输出所有频繁项集。实验结果表明,该算法具有良好的性能。  相似文献   

9.
对关联规则挖掘问题建立了完全格描述并给出了问题规模下限,提出了一种基于搜索空间划分的项集频度计算模型.在对FP-树进行改造的基础上提出基于划分思想的频繁项集挖掘算法UPM,算法的项集频度计算和非频繁项目裁剪都基于空间划分的思想.性能实验表明,与FP-Growth算法相比,UPM算法的时空效率有较大提高.  相似文献   

10.
关联规则挖掘的一种多剪枝概念格方法   总被引:1,自引:0,他引:1  
多数据源上关联规则挖掘方法,由于各数据节点间相互通信的候选项集数目过于庞大或者挖掘过程需要对数据库进行多次扫描,导致挖掘算法效率不高。研究剪枝概念格(pruned con-cept laffice,PCL)中概念与频繁项集表示关系,定义剪枝格上的导出频繁项集,设计了一个利用多剪枝概念格从多数据源上挖掘近似所有关联规则的算法UMPCL(union algorithm of multiplepruned concept lattice)。利用一个频繁概念表示一些频繁项集以减少挖掘过程中产生的侯选项集数,使用与全局支持度相等的局部支持度对各子概念格进行剪枝,最后融合、剪枝各子剪枝格并提取全局关联规则。理论分析和实验验证表明该算法是有效的。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号