共查询到19条相似文献,搜索用时 60 毫秒
1.
δ无关集的引入可解决数据挖掘领域中挖掘出来的频繁项集数量过大以及在实际应用中获取准确项集支持度代价过大的问题。针对传统方法生成无关集生成效率过低等问题,本文提出了一种在FP树上快速生成、结合一定的剪枝策略的快速挖掘算法FMINEX。实验效果证明,该算法在挖掘过程中,时间和空间性能都比较好。 相似文献
2.
FP-growth算法是一个挖掘频繁模式的有效算法,但它在挖掘过程中需要产生大量的条件FP树,因此其时空效率不够理想。提出了DFP-mine算法,通过在改进的FP树上合并子树来挖掘频繁模式,并在挖掘过程中结合了自顶向下和自底向上的双向搜索策略。理论分析和实验表明本文提出的算法具有较好的时空效率。 相似文献
3.
石杰 《烟台大学学报(自然科学与工程版)》2015,(2):113-118
频繁模式挖掘是数据挖掘领域中一个重要的研究方向,目前已有很多算法被用于挖掘频繁模式.本文在研究FP-growth算法的基础上,提出一种新的频繁模式挖掘算法——QFP算法.首先对每一个频繁项建立一棵QFP树,进而根据设定的条件对每棵树进行挖掘,直到找出符合条件的频繁模式.实验证明该算法能够减少条件子树的生成数量,降低对内存空间的依赖和CPU的计算时间,从而提高关联规则挖掘的效率. 相似文献
4.
随着数据库规模的增加或支持度阈值的减少,频繁模式的数量将以指数形式增长,FP-growth算法运行的时空效率将大为降低.本文提出一种基于格的快速频繁项集挖掘算法LFP-growth,算法利用等价关系将原来的搜索空间(格)划分成若干个较小的子空间(子格),通过子格间的迭代分解,将对网格P(I)的频繁项集挖掘转化为对多个子格的并集进行的约束频繁项集挖掘.实验结果和理论分析表明,在挖掘大型数据库时,LFP-growth算法的时间和空间性能均优于FP-growth算法. 相似文献
5.
挖掘频繁项集是许多数据挖掘任务中的关键问题,也是关联规则挖掘算法,所以提高频繁项集的生成效率一直是近几年数据挖掘领域研究的热点之一,研究人员从不同的角度对算法进改进以提高算法的效率。该文提出了一种基于位表的频繁项集挖掘算法,用一种特别的数据结构———位表来压缩数据库以便快速产生候选集和支持计数,实验结果表明;此算法大大减少了遍历的时间,是性能比较好的算法。 相似文献
6.
分析稀少数据的相关性是一种重要的、有价值的数据挖掘任务。运用面向关联规则的FP树构造方法,提出了一种特异关联规则挖掘算法RSFPA。该算法将包含特异模式的数据集压缩成一棵FP树,通过挖掘FP树来提取特异模式集,从而进一步提高了特异模式的挖掘效率。最后,利用恒星光谱作为数据集,实验验证了RSFPA算法的正确性和有效性。 相似文献
7.
从大型事务数据库中发现关联规则是数据挖掘中的一个重要课题,其核心问题是挖掘频繁项集.经典Apriori算法是有效的挖掘频繁项目集的算法.在分析Apriori算法的基础上,提出了一种利用二维数组来代替算法中的哈希树的方法,可以迅速产生二阶频繁项目集,改善了Apriori算法的效率瓶颈,大大提高了算法的执行效率. 相似文献
8.
提出了一种新的关联规则挖掘算法-Suppoqui算法,该算法是通过对集合树进行遍历来求频繁项集,它取消了候选集的求解过程,抛弃了以往传统算法求解频繁项集的思路,因此该算法是高效的。 相似文献
9.
快速关联规则挖掘算法 总被引:1,自引:0,他引:1
提出了一种新颖的关联规则挖掘算法QAIS,与经典两阶段式关联规则挖掘算法不同的是,它只需扫描一遍事务数据库,不需要生成候选集,并且可以方便的应用在增量式关联规则挖掘算法中,该算法经合成数据验证是有效的.同时针对关联规则生成过程中出现大量冗余规则的问题,还讨论了冗余关联规则去除的问题. 相似文献
10.
提出了一种基于聚合链挖掘频繁模式的改进FP-growth算法.该算法引入聚合链的单链表结构,改进了FP树结构.改进后的FP树是单向的,每个结点只保留指向父结点的指针,节省了树空间;相同项的不同节点的路径信息压缩进聚合链中,避免了生成节点链和条件模式库.用Agrawa方法生成实验数据进行分析,实验结果验证了该算法在时间上的优势. 相似文献
11.
提出一种改良的数据挖掘算法,以FP—Tree为保存压缩事务数据库的数据结构,采用深度优先遍历策略,利用最大频繁模式的性质,加速频繁模式的产生.实验证明,改进后的算法优于FP—Growth算法. 相似文献
12.
Generator项集是频繁项集的一种简洁表示形式,但当为数据项附以不同权值时,传统Generator定义和计算方法将不再有效;同时其具有的反单调性也不再成立;而此特性在现实应用中具有重要作用。提出以设计权重约束下的支持度计算方法为基础,重新定义加权Generator,调整加权Generator与频繁项集的计算关系,从而维持其反单调性。在加权支持度树结构的基础上,给出挖掘加权Generator的方法。实验表明,提出的方法能够使得权重较大的项被优先挖掘出来,并保证了Genera-tor的反单调性,提出的挖掘方法能够正确有效挖掘频繁加权Generator。 相似文献
13.
关联规则的挖掘是数据挖掘中的一个重要课题.实际应用中事务数据库不断更新,而发现频繁项集代价较高,因此需要提出用于数据库中关联规则的维护算法.本文提出了基于矩阵的MFUP(matrix fast updata)算法,该算法充分利用原有挖掘结果中候选频繁项集的支持数,能有效减少对数据库的重复扫描次数.实验表明,MFUP算法是高效的. 相似文献
14.
一种基于与/或树方法的数据挖掘算法及其应用 总被引:2,自引:0,他引:2
通过与/或树这样一个方法与结构,对人们提出的问题或要挖掘的目标进行分解或变换,使得到的一些更简单问题易于在数据集中被检索到或者能够更好地得到分析。 相似文献
15.
提出了基于数组的关联规则挖掘算法,该算法只扫描一次数据库,将数据库中的数据存于数组中,提高了内存的利用效率,同时也提高了算法效率. 相似文献
16.
一种基于限制的关联规则数据开采的算法 总被引:2,自引:1,他引:1
针对海量数据库开采时,现有的关联规则算法效率非常低下的问题,提出一种附加最小保证度的限制,并在此基础上提出一种新开采算法,可减少频繁项目集的数量,并显著地降低I/O时间和CPU时间。 相似文献
17.
文章介绍了知识发现中关联规则挖掘算法的基本思想及其性能,分析了FP-tree算法在关联规则挖掘中存在耗费巨大空间存贮的问题,提出了一种运用投影技术改进的频繁模式增长算法,该算法改善FP-tree构造,实验结果表明,运用投影技术改进的频繁模式增长算法可以提高关联规则挖掘效果。 相似文献
18.
为了提高数据挖掘算法在中医药数据处理中的效率,提出了采用TCMA算法挖掘TCM-FP树中的维间最大频繁项集。根据中医药数据的特点及药组挖掘的需求,在FP-growth算法的基础上,提出了TCM-FP树及其建树算法和挖掘算法TCMA,在TCM-FP树中采用优化搜索策略挖掘维间最大频繁项集,与FP-growth算法挖掘所有频繁项集比,大大缩短了时间。优化搜索算法切合中药TCM规则挖掘的实际意义,比FP-growth算法挖掘有更高的运行效率。 相似文献
19.
鉴于高维数据的稀疏性和分类数据特点,探讨了专门针对高维分类数据的聚类方法.首先将原始数据集转换成频繁项集,再通过改造频繁模式树以及给出的剪切策略,挖掘出事务的最大频繁项集,并基于最大频繁项集(MFI)的两个属性,将具有相同MFI的对象归于一类,由此提出了基于最大频繁项集的聚类算法.通过对分类数据集的实验,表明该算法具有相当的稳定性、健壮性和有效性. 相似文献