首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 31 毫秒
1.
频繁项集挖掘是关联规则挖掘算法的核心,数据流的实时、无限及不可逆性给传统数据挖掘方法带来很大挑战.频繁闭项集挖掘为频繁项集挖掘提供了完整且低冗余的结果,是近年来数据流频繁项集挖掘研究的热点之一.介绍了数据流频繁闭项集挖掘的相关概念,并从搜索空间的遍历策略、误差结果控制方式等方面对数据流频繁闭项集挖掘算法进行了分析比较.  相似文献   

2.
频繁项集的挖掘不仅仅是关联规则挖掘的基础,而且在序列模式、聚类、多维模式等数据挖掘任务中扮演重要角色.本文在给出一个基于数据垂直分布的频繁项集挖掘算法HBMFP的基础上,论述了利用MFC中的树视图控件(CTreeCtrl)将频繁项集树形可视化,并讨论了基于该频繁模式树的3种约束频繁项集查询的方法.  相似文献   

3.
利用频繁模式表的线性表简单结构及闭频繁项集挖掘的优点,提出了一种闭频繁项集挖掘算法.模式签名向量间的合取操作以及向量计数操作为该算法的主要操作,实现从已生成的闭频繁项集生成集中抽取代表模式,降低了模式搜索空间,简化了生成闭频繁项集的过程,实验结果验证了该算法的有效性.  相似文献   

4.
在所有频繁项集挖掘算法中,Apriori算法一直是一个经典的算法,但是该算法存在的最大缺陷是要进行多次的数据库扫描并且在挖掘过程中产生大量的候选频繁项集,因此效率很低.提出了利用基于矩阵的方法挖掘频繁项集,很好地避免了这个缺陷.  相似文献   

5.
研究频繁项集挖掘中的模糊约束问题. 讨论了模糊约束的定义和性质,并根据其性质对项集空间和事务空间进行剪枝,以提高挖掘效率. 使用遗传算法确定模糊集,挖掘最多的满足约束的频繁项集. 仿真结果证明了该方法的有效性.  相似文献   

6.
现有关联规则挖掘算法都是在频繁项集基础上进行挖掘,关于非频繁项集的资料很少.特别是在研究负关联规则后,非频繁项集因包含重要的负关联规则而变得非常重要.针对这一问题,在多支持度算法的基础上提出了一种新的算法模型,能够在挖掘频繁项集的同时得到非频繁项集,实验结果表明了该算法的有效性.  相似文献   

7.
一种不确定性数据中最大频繁项集挖掘方法   总被引:1,自引:0,他引:1  
不确定性数据挖掘已经成为数据挖掘领域的新热点,频繁项集挖掘是重点研究的问题之一.但是目前出现的挖掘算法大多集中在完全频繁项集,而用于最大频繁项集和频繁闭项集的算法尚不多见.文中研究了一种基于UF-Tree的用于不确定性数据中挖掘最大频繁项集的算法,该挖掘过程分为两个步骤,第一步先得到以频繁1-项集为后缀的局部最大频繁项集,第二步得到所有的全局最大频繁项集,实验证明该算法性能良好且特别适用于稠密型、事务长度较小的数据集.  相似文献   

8.
文章在研究基于剪枝概念格的频繁项集表示的基础上,提出了基于多剪枝概念格模型的频繁项集表示与挖掘方法。该方法在多剪枝格基础上进行导出频繁项集的合并,进而获得全局频繁项集,有效地降低了频繁项集表示的规模;理论分析和实验结果表明,该方法能获得满足用户要求的近似所有全局频繁项集。  相似文献   

9.
随着数据库规模的增加或支持度阈值的减少,频繁模式的数量将以指数形式增长,FP-growth算法运行的时空效率将大为降低.本文提出一种基于格的快速频繁项集挖掘算法LFP-growth,算法利用等价关系将原来的搜索空间(格)划分成若干个较小的子空间(子格),通过子格间的迭代分解,将对网格P(I)的频繁项集挖掘转化为对多个子格的并集进行的约束频繁项集挖掘.实验结果和理论分析表明,在挖掘大型数据库时,LFP-growth算法的时间和空间性能均优于FP-growth算法.  相似文献   

10.
阐述了关联规则挖掘对象事务数据库的特性, 对关联规则挖掘的关键问题频繁项集的几种挖掘方法:Apriori算法、最大频繁项集的挖掘算法、基于频繁链表的频繁项集挖掘算法作了分析研究,并指出了频繁项集挖掘算法优化的必要途径  相似文献   

11.
基于图的最大频繁项集的生成算法   总被引:1,自引:0,他引:1  
挖掘频繁项集是数据挖掘的重要技术之一,目前已有很多经典算法,如:apriori算法,FP-tree等.挖掘频繁项集主要是寻找最大频繁项集,为了快速寻找最大频繁项集,通常采用削减候选项集、减少扫描数据库次数的方法和将自底向上与自顶向下的搜索方法结合起来(又称双向搜索).双向搜索能有效地缩减搜索空间.本文把基于图的关联规则挖掘和双向搜索的思想结合起来产生最大频繁项集,提出了基于图的最大频繁项集生成算法.此算法用图将数据映射到一个向量上,通过一遍扫描数据库就可以构造整个频繁项集,结合双向搜索,能快速生成频繁项集,对产生较大长度的最大频繁项集也有较好的效果.文末,把基于图的关联规则挖掘算法和基于图的最大频繁项集算法进行了比较,分析出性能差别的原因.  相似文献   

12.
针对数据流的特点,提出利用函数迭代运算的方法来提取数据流中的频繁项集的挖掘方法.整个挖掘过程只需扫描数据流一次,不产生频繁候选集.算法的时间复杂度是比较低的.实验仿真结果也验证了该挖掘方法是有效的和可行的.  相似文献   

13.
提出了针对数据水平分布的分布式数据集下的全局最大频繁项集更新挖掘算法(UDMFI),用于解决当最小支持度阈值发生变化时全局最大频繁项集的更新挖掘问题.通过提出的带项目头表的频繁模式树(HFP-Tree)来存储数据,然后根据最小支持度阈值变小时,原最大频繁项集的集合中的元素一定是新最大频繁项集的集合中某些元素的子集的特性,以及最小支持度阈值变大时,原最大频繁项集中的一些最大频繁项集将可能不再是新最大频繁项集的集合中的最大频繁项集的特性,充分利用已挖掘的结果,从而减少挖掘过程中的费用.实验结果表明该算法具有较好的效率.  相似文献   

14.
设计了一种不同于传统关联规则挖掘算法(如Apriori算法等)频繁项集产生算法.该算法借鉴一般免疫算法思想,并从新的角度来看频繁项集的定义,避免了传统算法中存在的"项集生成瓶颈"问题.通过对mushroom数据的频繁项集挖掘的实验,与传统方法进行了比较,其结果表明,基于免疫算法的频繁项集挖掘算法在大数据集、低支持度情况下平均挖掘时间短.  相似文献   

15.
阐述了关联规则挖掘对象事务数据库的特性,对关联规则挖掘的关键问题频繁项集的几种挖掘方法:Aptiori算法、最大频繁项集的挖掘算法、基于频繁链表的频繁项集挖掘算法作了分析研究,并指出了频繁项集挖掘算法优化的必要途径。  相似文献   

16.
在数据流闭频繁项集挖掘过程中,常忽略历史模式对挖掘结果的影响,并采用一种结构来标记闭频繁项集的类型,导致算法的效率不高.为此提出一种挖掘数据流时间窗口中闭频繁项集的方法NEWT-moment.该方法能在单遍扫描数据流事务的条件下完整地记录模式信息.同时,NEWT-moment提出的剪枝方法能很好地降低滑动窗口树F-tr...  相似文献   

17.
针对不确定数据频繁项集挖掘效率低和准确度不高的问题,提出了一种基于改进的频繁模式树(FPtree)和遗传算法(GA)挖掘不确定数据概率频繁项集的方法,即UFPGA(基于频繁模式树和遗传的挖掘算法).该算法根据不确定数据的构成特征,改进频繁模式树方法挖掘不确定数据频繁项集,采用缩小变异空间和增加育种算子的遗传算法搜索最大频繁项集,收缩了搜索范围,提高了挖掘效率.实验结果表明:该方法在时间复杂度方面有很好的优越性,对大规模的不确定数据挖掘提供了一种有效的技术手段.  相似文献   

18.
一种不产生候选项集的关联规则挖掘算法   总被引:1,自引:1,他引:0  
在挖掘关联规则的过程中,关键步骤是产生频繁项集.基于频繁项集支持矩阵的思想,提出一种有效的频繁项集挖掘算法-FIMA,并给出了算法的基本设计思想和算法描述.本算法利用矩阵挖掘频繁项集,不需要产生候选项集,且只需扫描数据库一次。所以此算法是非常有效的.  相似文献   

19.
挖掘加权频繁项集是多种数据挖掘应用中的关键问题,为提高传统加权频繁项集挖掘算法的性能,在研究概念格模型和差集Diffsets理论的基础上,构建一种利用差集的加权频繁项集格结构,该格结构通过差集性质快速计算加权支持度,满足向下封闭特性,更有利于高效生成加权频繁项集.最后给出了相应的FWIL-Diffsets构造算法,该算法仅对数据库进行一次扫描,通过性质定理有效减少项集生成中的计算量.研究结果表明:该方法能显著提高生成加权频繁项集的效率.  相似文献   

20.
关联规则挖掘的一种多剪枝概念格方法   总被引:1,自引:0,他引:1  
多数据源上关联规则挖掘方法,由于各数据节点间相互通信的候选项集数目过于庞大或者挖掘过程需要对数据库进行多次扫描,导致挖掘算法效率不高。研究剪枝概念格(pruned con-cept laffice,PCL)中概念与频繁项集表示关系,定义剪枝格上的导出频繁项集,设计了一个利用多剪枝概念格从多数据源上挖掘近似所有关联规则的算法UMPCL(union algorithm of multiplepruned concept lattice)。利用一个频繁概念表示一些频繁项集以减少挖掘过程中产生的侯选项集数,使用与全局支持度相等的局部支持度对各子概念格进行剪枝,最后融合、剪枝各子剪枝格并提取全局关联规则。理论分析和实验验证表明该算法是有效的。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号