首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 31 毫秒
1.
更新挖掘最大频繁项目集是多种数据挖掘应用中的重要问题,其发现过程的高花费要求对高效更新挖掘算法进行研究.提出了一种快速的更新挖掘最大频繁项目集算法,其能够在原有挖掘结果的基础上,有效地挖掘出更新后的数据库中隐含的新最大频繁项目集.  相似文献   

2.
基于数组的频繁项目集的挖掘算法   总被引:4,自引:0,他引:4  
挖掘关联规则是数据挖掘研究的一个重要方面.然而,目前提出的算法仍存在一些问题,如复杂的数据结构、大量的候选频繁项目集生成等等.本文提出使用了一种简单的数据结构——数组,并提出了基于数组的一种新的频繁项目集的挖掘算法.  相似文献   

3.
基于集合运算的频繁集挖掘优化算法   总被引:1,自引:0,他引:1  
挖掘关联规则是数据挖掘中一个重要的课题,产生频繁项目集是其中的一个关键步骤。 提出了一种基于集合运算的频繁项目集挖掘算法,并将该算法与经典算法Apriori进行比较。该算法只需要对数据库扫描一遍。实验表明该算法的效率较好。  相似文献   

4.
提高最大频繁项目集挖掘算法的效率是关联规则挖掘研究一个重点领域。本文主要对影响最大频繁项目集挖掘效率的数据分布、搜索策略、支持度计算及剪枝策略等技术进行研究。  相似文献   

5.
设计了一种不同于传统关联规则挖掘算法(如Apriori算法等)频繁项集产生算法.该算法借鉴一般免疫算法思想,并从新的角度来看频繁项集的定义,避免了传统算法中存在的"项集生成瓶颈"问题.通过对mushroom数据的频繁项集挖掘的实验,与传统方法进行了比较,其结果表明,基于免疫算法的频繁项集挖掘算法在大数据集、低支持度情况下平均挖掘时间短.  相似文献   

6.
阐述了关联规则挖掘对象事务数据库的特性,对关联规则挖掘的关键问题频繁项集的几种挖掘方法:Aptiori算法、最大频繁项集的挖掘算法、基于频繁链表的频繁项集挖掘算法作了分析研究,并指出了频繁项集挖掘算法优化的必要途径。  相似文献   

7.
基于候选最大频繁项目集的关联规则挖掘算法   总被引:3,自引:0,他引:3  
提高频繁项目集算法的效率是关联规则挖掘研究的一个重点领域 ,就此提出了基于候选最大频繁项目集的关联规则挖掘算法 ,通过实例说明了算法的执行过程 ,并与FP -Tree等其他算法作了比较  相似文献   

8.
Apriori算法是关联规则挖掘中的经典算法,一直是数据挖掘领域的研究热点。传统的Apriori算法由于产生过多的无用的候选项集以及需要多次扫描数据库导致在一定程度上限制了算法的效率。本文针对这一问题,提出一种新的RF-Apriori算法。该算法首先对数据进行二元处理;然后利用项集的反单调性减少候选项集的产生,从而提高算法效率。实验结果表明,RF -Apriori算法效率明显优于Apriori算法。  相似文献   

9.
基于向量的频繁项集挖掘算法研究   总被引:1,自引:0,他引:1  
针对Apriori算法寻找频繁项集时,需要多次扫描事务数据库和可能产生大量候选项集的问题,提出了一种向量和数组相结合的频繁项集挖掘算法。该算法不仅实现了只扫描事务数据库一次,而且避免了模式匹配,减少了无价值的候选项集的产生。通过与已有算法的比较,验证了本文算法具有较高的挖掘效率,而且数据库的项数越多,此算法的挖掘效果越明显。  相似文献   

10.
在所有频繁项集挖掘算法中,Apriori算法一直是一个经典的算法,但是该算法存在的最大缺陷是要进行多次的数据库扫描并且在挖掘过程中产生大量的候选频繁项集,因此效率很低.提出了利用基于矩阵的方法挖掘频繁项集,很好地避免了这个缺陷.  相似文献   

11.
对Apriori算法的分析,提出采用分解事务数据库中最长的项集,使用前缀划分的表示方法,从而快速地归纳出事务数据库中的最大频繁项集.  相似文献   

12.
针对股评论坛主题发现,提出基于频繁项集与潜在语义相结合的短文本聚类(STC_FL)框架.在基于知网的知识获取后得到概念向量空间,挖掘并筛选出重要频繁项集,然后采用统计和潜在语义相结合的方法进行重要频繁项集的自适应聚类.最后,提出TSC-SN(text soft classifying based on similarity threshold and non-overlapping)算法,通过参数调优策略选择和控制文本软聚类过程.股吧论坛数据实证分析发现:所提出的STC_FL框架和TSC-SN算法可充分挖掘文本潜在语义信息,并有效降低特征空间维度,最终实现对短文本的深层次信息挖掘和主题归类.  相似文献   

13.
频繁模式不能反映模式内部各项目之间的关联和相关关系,频繁关联模式挖掘与孥繁相关苎式兰苎已越来越受到人们的重视.按照相关模式定义,如果一个模式是相关模式,其超模式一定是相关模式,最小频繁相关模式挖掘将大大减少挖掘出来的数量,有利于用户分析.给出最小频繁相关模式挖掘算法,并在标准数据挖掘数据集蘑菇数据上测试,实验证明算法是正确有效的.  相似文献   

14.
频繁序列模式挖掘算法   总被引:5,自引:0,他引:5  
为解决从数据库中挖掘长模式和支持度较低时可能遇到计算复杂度较高的问题,提出一种新的算法--EFSPAN(Effective Frequent Sequential PAtterN mining algorithm).算法采用了深度优先挖掘策略,并将基于前缀序列格的深度优先遍历与两种高效的剪枝策略相结合.实验结果表明:新算法在模式较长和支持度较低时,能使搜索空间中60%以上的节点免被搜索;从而大大缩小了搜索空间,降低了序列模式挖掘算法的计算复杂度.  相似文献   

15.
为了实现对数据流的序列模式挖掘,提出了基于数据流的序列模式挖掘算法MFSDS-1和MFSDS-2,它们均通过调整入选度的大小来调整保存信息的粒度.算法MFSDS-2利用分层存储结构,不仅能更好地保存序列信息,而且可以通过与全局序列模式的对比得到当前活动的一些异常序列模式.实验结果表明,基于分层存储的算法MFSDS-2的效率比算法MSFDS-1高.  相似文献   

16.
基于约束的最大频繁模式的挖掘   总被引:2,自引:0,他引:2  
频繁模式挖掘通常产生大量的挖掘结果,基于约束的最大模式挖掘成为目前研究的焦点.给出基于约束的频繁最大模式的定义和挖掘基于约束的频繁最大模式算法.  相似文献   

17.
该文探讨挖掘不确定性数据频繁项集,在Carson Kai-Sang Leung等人提出的一种基于树的UFPgrowth算法的基础上进行改进,提出新算法-UFP-growthT.实验表明,该算法可以有效地挖掘不确定性数据的频繁项集,且拥有高效性和伸缩性.改进后的算法在一定程度上减小了UFP-tree的大小,加快了挖掘过程...  相似文献   

18.
快速频繁序列模式挖掘算法   总被引:4,自引:1,他引:3  
为解决从数据库中挖掘长模式可能遇到较高的计算复杂度问题, 提出一种新的算法FFSPAN. 传统上, 要判断一个序列是否频繁, 需要在原数据库中判断整个序列是否频繁; 而算法FFSPAN是通过在序列数据库中寻找一个频繁项或一个频繁项集来代替寻找一个完整的频繁序列, 而且FFSPAN算法每次扫描的数据库都是迅速减小的, 这使得算法在挖掘的序列模式越长时越有效. 在标准测试数据集上的实验结果表明, FFSPAN算法非常有效.  相似文献   

19.
频繁模式挖掘是数据挖掘领域中一个重要的研究方向,目前已有很多算法被用于挖掘频繁模式.本文在研究FP-growth算法的基础上,提出一种新的频繁模式挖掘算法——QFP算法.首先对每一个频繁项建立一棵QFP树,进而根据设定的条件对每棵树进行挖掘,直到找出符合条件的频繁模式.实验证明该算法能够减少条件子树的生成数量,降低对内存空间的依赖和CPU的计算时间,从而提高关联规则挖掘的效率.  相似文献   

20.
阐述了关联规则挖掘对象事务数据库的特性, 对关联规则挖掘的关键问题频繁项集的几种挖掘方法:Apriori算法、最大频繁项集的挖掘算法、基于频繁链表的频繁项集挖掘算法作了分析研究,并指出了频繁项集挖掘算法优化的必要途径  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号