首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 31 毫秒
1.
最大频繁项集挖掘可以广泛应用在多种重要的Web挖掘工作中.为了有效地削减搜索空间,提出了一种新的最大频繁项集挖掘中的搜索空间剪枝策略.这种策略基于深度优先遍历词典序子集枚举树,利用树中子节点与父节点扩展集中相同项的扩展支持度相等的特性,对搜索空间进行剪枝.应用该策略,对MAFIA算法进行改进优化.实验结果表明,该剪枝策略可以有效削减搜索空间,尤其在稀疏但包含长频繁项集的数据集上,搜索空间削减掉2/3,算法的时间效率比原MAFIA算法提高3~5倍.  相似文献   

2.
基于FP-tree的最大频繁项集挖掘算法   总被引:1,自引:0,他引:1  
现有的最大频繁项集挖掘算法在支持度阈值较大情况下已达到较高性能,但在支持度阈值较小时,由于候选项集的快速增长,其性能往往不理想。文章提出了一种基于频繁模式树(FP-tree)存储结构的最大频繁项集挖掘算法——DMFIF算法,将FP-tree各分枝作为初始候选项集,并按维数和支持度递减排序,结合子集剪枝策略,自顶向下搜索挖掘最大频繁项集。实验结果表明,该算法在低支持度阈值下稠密数据集中挖掘长模式具有较好性能。  相似文献   

3.
频繁项集挖掘和高效用项集挖掘是数据挖掘研究中的重要内容.为克服在实际应用中单独使用这2类算法的局限性,频繁高效用项集挖掘算法开始被提出.基于经典高效用项集挖掘(Fast High-Utility Miner,FHM)算法,本文提出了频繁高效用项集挖掘(improved FHM with Support,iFHMS)算法...  相似文献   

4.
关联规则挖掘的一种多剪枝概念格方法   总被引:1,自引:0,他引:1  
多数据源上关联规则挖掘方法,由于各数据节点间相互通信的候选项集数目过于庞大或者挖掘过程需要对数据库进行多次扫描,导致挖掘算法效率不高。研究剪枝概念格(pruned con-cept laffice,PCL)中概念与频繁项集表示关系,定义剪枝格上的导出频繁项集,设计了一个利用多剪枝概念格从多数据源上挖掘近似所有关联规则的算法UMPCL(union algorithm of multiplepruned concept lattice)。利用一个频繁概念表示一些频繁项集以减少挖掘过程中产生的侯选项集数,使用与全局支持度相等的局部支持度对各子概念格进行剪枝,最后融合、剪枝各子剪枝格并提取全局关联规则。理论分析和实验验证表明该算法是有效的。  相似文献   

5.
发现频繁项集是关联规则挖掘的关键步骤。然而,大多数频繁项集求解算法因需要产生大量候选集而降低了效率。该文在研究概念格和频繁项集关系的基础上,将剪枝概念格PCL模型引入数据库中频繁项集的表示,利用概念间的关系性质,在不丢失信息的同时能有效压缩频繁项集的规模,并提出基于PCL模型的频繁项集求解算法。该算法基于Apriori性质,在构造过程中及时、动态地剪枝,删除与频繁项集求解无关的概念,从而有效地改善了频集挖掘算法的时空性能;实验证实了算法良好的性能。  相似文献   

6.
目的解决在关联规则挖掘中存在大量无用的候选项集和频繁项集以及效率不高的问题。方法提出了一种基于十字链表的关联规则改进算法。结果利用用户给定的条件和剪枝算法减少了候选项集的数量,再遍历十字链表确定频繁项集,结果表明算法提高了挖掘效率。结论基于十字链表的关联规则改进算法避免了重复扫描数据库,提高了挖掘效率。  相似文献   

7.
为提高网络告警数据的处理效率,迅速找出故障根源,以保证整个电信网络的正常运行。针对告警数据的特点对传统的关联规则算法进行了相应的改进,提供了优先剪枝策略,避免了生成没有意义的频繁项集;k-1-项集通过连接操作生成k项集,避免了反复扫描数据库所带来的压力。结果表明,改进算法提高了挖掘效率,达到快速诊断网络故障的目的。  相似文献   

8.
在数据流闭频繁项集挖掘过程中,常忽略历史模式对挖掘结果的影响,并采用一种结构来标记闭频繁项集的类型,导致算法的效率不高.为此提出一种挖掘数据流时间窗口中闭频繁项集的方法NEWT-moment.该方法能在单遍扫描数据流事务的条件下完整地记录模式信息.同时,NEWT-moment提出的剪枝方法能很好地降低滑动窗口树F-tr...  相似文献   

9.
针对FBCM(基于矩阵压缩FUP(fast update algorithm))算法在项集挖掘过程中存在频繁扫描原频繁项集库,并生成大量候选集的问题,提出一种通过提取数据库中最频繁项的方法,以降低对原频繁项集库的扫描次数;并通过候选集剪枝思想,减少算法整体运行过程中的候选集生成,以提高频繁项集的挖掘速度.实验结果表明,...  相似文献   

10.
NB-MAFIA: 基于N-List的最长频繁项集挖掘算法   总被引:1,自引:0,他引:1  
本文在深度优先搜索的框架上, 引入基于项集前缀树节点链表的项集表示方法N-List, 提出一个高效的最长频繁项集挖掘算法NB-MAFIA。N-List的高压缩率和高效的求交集方法可以实现项集支持度的快速计算, 同时采用对搜索空间的剪枝策略和超集检测策略来提高算法效率。在多个真实和仿真数据集上, 通过实验评估了NB-MAFIA和两个经典算法。实验结果表明NB-MAFIA在多数情况下优于其他算法, 尤其在真实和稠密数据集上优势更为明显。  相似文献   

11.
利用频繁模式表的线性表简单结构及闭频繁项集挖掘的优点,提出了一种闭频繁项集挖掘算法.模式签名向量间的合取操作以及向量计数操作为该算法的主要操作,实现从已生成的闭频繁项集生成集中抽取代表模式,降低了模式搜索空间,简化了生成闭频繁项集的过程,实验结果验证了该算法的有效性.  相似文献   

12.
最频繁项集挖掘是文本关联规则挖掘中研究的重点和难点,它决定了文本关联规则挖掘算法的性能.针对当前在最频繁项集挖掘方面的不足,改进传统的倒排表,并结合最小支持度阈值动态调整策略,提出一个新的基于改进的倒排表和集合理论的最频繁项集挖掘算法.另外,给出几个命题和推论,并把它们用于本文算法以提高性能,最后对所提算法进行实验验证.实验结果表明,该算法的规则有效率和时间性能比常用的两个最频繁项集挖掘算法(NApriori算法,IntvMatrix算法)都好.  相似文献   

13.
设计了一种不同于传统关联规则挖掘算法(如Apriori算法等)频繁项集产生算法.该算法借鉴一般免疫算法思想,并从新的角度来看频繁项集的定义,避免了传统算法中存在的"项集生成瓶颈"问题.通过对mushroom数据的频繁项集挖掘的实验,与传统方法进行了比较,其结果表明,基于免疫算法的频繁项集挖掘算法在大数据集、低支持度情况下平均挖掘时间短.  相似文献   

14.
由于能反映用户的偏好,可以弥补传统频繁项集挖掘仅由支持度来衡量项集重要性的不足,高效用项集正在成为当前数据挖掘研究的热点.为使高效用项集挖掘更好地适应数据流环境,提出了一种基于事务型滑动窗口的数据流中高效用项集挖掘算法MHUIDS.首先在二进制向量的基础上,提出了高事务加权效用项集树(HTWUI-树)的结构.进而分别给出了事务型滑动窗口初始化与滑动的算法描述.最后,提出了高效用项集的剪枝策略与挖掘算法.实验结果表明,MHUIDS算法具有较高的挖掘效率及较低的存储开销.  相似文献   

15.
δ无关集的引入可解决数据挖掘领域中挖掘出来的频繁项集数量过大以及在实际应用中获取准确项集支持度代价过大的问题。针对传统方法生成无关集生成效率过低等问题,本文提出了一种在FP树上快速生成、结合一定的剪枝策略的快速挖掘算法FMINEX。实验效果证明,该算法在挖掘过程中,时间和空间性能都比较好。  相似文献   

16.
频繁项集挖掘是数据挖掘的一个热点,频繁项集的精简表示有助于减少频繁项集的数量,是频繁项集挖掘中的一个关键性问题。文章在总结频繁项集的相关精简模型后,对频繁项集精简模型,生成器精简表示模型进行研究。传统的生成器精简表示模型每次生成都需要扫描数据库,效率不高。本文提出一种新颖的频繁项集精简算法FPASCAL,使用FP树数据结构代替数据库再结合剪枝策略。理论分析及实验证明该方法在时间性能和空间复杂度上都优于传统方法。  相似文献   

17.
挖掘最大频繁项目集是多种数据挖掘应用中的关键问题,如果采用Apriori类的候选项目集生成一检验方法,则候选项目集生成的代价通常很高.为寻求避免生成大量候选项集或生成频繁模式树的挖掘算法,提出一种从事务项集交集求最大频繁项集的迭代算法DIIP(Datasets Iteration and Intersection Pruning Algorithm),通过不断缩减事务集数据量和尽可能早地对项目集进行修剪实现最大频繁项集的挖掘,该算法有别于已有的最大频繁项集经典算法,实验表明该算法有效可行.  相似文献   

18.
常见的基于Hadoop框架的Apriori改进算法在统计支持度时有扫描数据集、候选项集剪枝等方面效率低下且集群间的数据传输有较大的时间开销的问题,提出了一种Apriori的改进算法Apriori_Ind.算法运用Hadoop集群,使用先按事务对数据集分块,再将数据集的格式转换为项,事务集的分块处理策略,使算法充分利用分布式计算优势,实现各节点并行的实现候选项集生成与剪枝操作.并利用前项与后项的新结构表示频繁项集,新结构在各节点进行候选项集生成和剪枝时提高算法效率.Apriori_Ind具有减小集群传输代价、加速剪枝等优势.实验表明新算法适合大规模数据挖掘,特别是项的数量较大的情况下,算法性能有明显的提高.  相似文献   

19.
针对关联规则挖掘不能有效进行个性化推荐问题,研究了关联规则挖掘与贝叶斯网络相融合的个性化关联推荐模型,采用历史记录剪枝与贝叶斯网络校验相结合的办法,对关联规则挖掘算法进行改进。在关联规则挖掘过程中,结合用户历史记录,对关联规则中的频繁项集进行筛选,低于给定阈值项集被剪枝,并把剪枝后的项集输入贝叶斯校验网络进行个性化校验,对校验结果排序后按排名先后进行推荐,实现把读者真正喜欢的图书优先推荐给读者,该推荐模型在一定程度上解决了现有推荐系统中个性化较弱的问题。实验表明,贝叶斯网络可以提高关联推荐的个性化程度。  相似文献   

20.
一种不确定性数据中最大频繁项集挖掘方法   总被引:1,自引:0,他引:1  
不确定性数据挖掘已经成为数据挖掘领域的新热点,频繁项集挖掘是重点研究的问题之一.但是目前出现的挖掘算法大多集中在完全频繁项集,而用于最大频繁项集和频繁闭项集的算法尚不多见.文中研究了一种基于UF-Tree的用于不确定性数据中挖掘最大频繁项集的算法,该挖掘过程分为两个步骤,第一步先得到以频繁1-项集为后缀的局部最大频繁项集,第二步得到所有的全局最大频繁项集,实验证明该算法性能良好且特别适用于稠密型、事务长度较小的数据集.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号