首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 15 毫秒
1.
一种快速发现最大频繁项集的挖掘算法   总被引:1,自引:0,他引:1  
文章分析了关联规则发现中关于频繁项集的生成与测试方法,提出一种快速挖掘最大频繁项集的算法MFIA_VTL。该算法针对数据库的垂直事务标识列表结构对项集搜索空间进行基于前缀的划分,来发现最大频繁项集。实验表明,该算法性能稳定,可扩展性好。  相似文献   

2.
研究分布式环境下约束性关联规则更新问题,包括数据库中事务增加和删除2种情况.引入向导集的概念,提出基于全局局部模式的约束性关联规则增量式更新算法DUCAR,其中包括局部约束性频繁项目集更新算法ULFC和全局约束性频繁项目集更新算法UGFC.该算法充分利用原先的挖掘结果提高更新效率,首先从最高维的频繁n项目集进行更新,在更新过程中考虑约束条件,结合剪枝算法,生成较少数量的满足约束条件的候选项目集.将该算法用Java加以实现,采用多组数据对此算法的性能进行测试,并与其他算法作对比实验,实验结果表明,该算法是高效可行的.  相似文献   

3.
提高最大频繁项目集挖掘算法的效率是关联规则挖掘研究一个重点领域。本文主要对影响最大频繁项目集挖掘效率的数据分布、搜索策略、支持度计算及剪枝策略等技术进行研究。  相似文献   

4.
NB-MAFIA: 基于N-List的最长频繁项集挖掘算法   总被引:1,自引:0,他引:1  
本文在深度优先搜索的框架上, 引入基于项集前缀树节点链表的项集表示方法N-List, 提出一个高效的最长频繁项集挖掘算法NB-MAFIA。N-List的高压缩率和高效的求交集方法可以实现项集支持度的快速计算, 同时采用对搜索空间的剪枝策略和超集检测策略来提高算法效率。在多个真实和仿真数据集上, 通过实验评估了NB-MAFIA和两个经典算法。实验结果表明NB-MAFIA在多数情况下优于其他算法, 尤其在真实和稠密数据集上优势更为明显。  相似文献   

5.
关联规则挖掘的一种多剪枝概念格方法   总被引:1,自引:0,他引:1  
多数据源上关联规则挖掘方法,由于各数据节点间相互通信的候选项集数目过于庞大或者挖掘过程需要对数据库进行多次扫描,导致挖掘算法效率不高。研究剪枝概念格(pruned con-cept laffice,PCL)中概念与频繁项集表示关系,定义剪枝格上的导出频繁项集,设计了一个利用多剪枝概念格从多数据源上挖掘近似所有关联规则的算法UMPCL(union algorithm of multiplepruned concept lattice)。利用一个频繁概念表示一些频繁项集以减少挖掘过程中产生的侯选项集数,使用与全局支持度相等的局部支持度对各子概念格进行剪枝,最后融合、剪枝各子剪枝格并提取全局关联规则。理论分析和实验验证表明该算法是有效的。  相似文献   

6.
在数据流闭频繁项集挖掘过程中,常忽略历史模式对挖掘结果的影响,并采用一种结构来标记闭频繁项集的类型,导致算法的效率不高.为此提出一种挖掘数据流时间窗口中闭频繁项集的方法NEWT-moment.该方法能在单遍扫描数据流事务的条件下完整地记录模式信息.同时,NEWT-moment提出的剪枝方法能很好地降低滑动窗口树F-tr...  相似文献   

7.
The number of frequent subtrees usually grows exponentially with the tree size because of combinatorial explosion. As a result, there are too many frequent subtrees for users to manage and use. To solve this problem, we generalize a compressed frame based on δ-cluster to the problem of compressing frequent-subtree sets, and propose an algorithm RPTlocal which can mine compressed frequent subtrees set directly. This algorithm sacrifices the theoretical bounds but still has good compression quality. By pruning the search space and generating frequent subtrees directly, this algorithm is also efficient. Experiment result shows the representative subtrees mining by RPTlocal is almost two orders of magnitude less than the whole collection of the closed subtrees, and is more efficient than CMtreeMiner, the algorithm for mining both closed and Maximal frequent subtrees. Foundation item: Supported by the National Natural Science Foundation of China (70371015)  相似文献   

8.
挖掘频繁闭项目集是数据挖掘领域中的一个重要研究方向,人们已提出了许多用于高效地发现大规模数据库中频繁闭项目集的算法,但对其更新维护问题的研究却比较少.在分析了频繁闭项目集更新算法关键技术的基础上,提出一种快速的增量式频繁闭项目集更新算法FUFCIA(fastupdating frquent closed itemsets algorithm),该算法将充分利用先前挖掘过程中所产生的信息来节省发现新的频繁闭项目集的时间开销,降低了候选频繁闭项目集的规模,减少了扫描数据库的次数.最后对该算法进行分析和讨论,并进行试验验证,试验结果表明算法FUFCIA是有效的.  相似文献   

9.
利用频繁模式表的线性表简单结构及闭频繁项集挖掘的优点,提出了一种闭频繁项集挖掘算法.模式签名向量间的合取操作以及向量计数操作为该算法的主要操作,实现从已生成的闭频繁项集生成集中抽取代表模式,降低了模式搜索空间,简化了生成闭频繁项集的过程,实验结果验证了该算法的有效性.  相似文献   

10.
有效地进行频繁项挖掘一直以来都是数据挖掘任务中最为重要的组成部分。已有的大部分频繁项挖掘算法在数据项多及支持度低的情况下,算法的效率急剧下降。为了有效地解决此类问题,提出了一种采用双向十字链表结构的频繁项挖掘算法(two-way crossed list for frequent itemsets mining,TCLFI)。极大地降低了搜索空间,加快了频繁项的筛选过程,减少了所需保存的数据项个数,从而降低了时间复杂度,提高了频繁项的挖掘效率。实验通过真实数据集和合成数据集验证了算法的有效性和扩展性。  相似文献   

11.
更新挖掘最大频繁项目集是多种数据挖掘应用中的重要问题,其发现过程的高花费要求对高效更新挖掘算法进行研究.提出了一种快速的更新挖掘最大频繁项目集算法,其能够在原有挖掘结果的基础上,有效地挖掘出更新后的数据库中隐含的新最大频繁项目集.  相似文献   

12.
针对传统的关联规则算法挖掘效率低且产生的频繁项集庞大的缺陷,提出一种改进的基于直接频繁闭超项集理论的关联规则挖掘算法。该算法针对候选频繁闭项集具有快速检测闭合性和缩减查找范围的优势,有效地提高了挖掘效率。在冠心病诊断中的应用结果表明,该算法可有效地挖掘冠心病诊疗规则。  相似文献   

13.
基于FP-Tree的最大频繁项目集更新挖掘算法   总被引:5,自引:1,他引:4  
发现最大频繁项目集是多种数据挖掘应用中的重要问题.在应用中用户需要调整最小支持度,以发现更有用的最大频繁项目集.为此提出了一种最大频繁项目集更新算法(UMFPA),该算法通过对频繁模式树(FP-Tree)中的频繁项目头表(H Table)增加两个域,从而将减少在数据库不变而最小支持度变化的情况下的更新挖掘最大频繁项目集的费用.实验结果表明,算法在进行最大频繁项目集更新挖掘时具有很好的性能.  相似文献   

14.
随着数据库规模的增加或支持度阈值的减少,频繁模式的数量将以指数形式增长,FP-growth算法运行的时空效率将大为降低.本文提出一种基于格的快速频繁项集挖掘算法LFP-growth,算法利用等价关系将原来的搜索空间(格)划分成若干个较小的子空间(子格),通过子格间的迭代分解,将对网格P(I)的频繁项集挖掘转化为对多个子格的并集进行的约束频繁项集挖掘.实验结果和理论分析表明,在挖掘大型数据库时,LFP-growth算法的时间和空间性能均优于FP-growth算法.  相似文献   

15.
Clustering in high-dimensional space is an important domain in data mining. It is the process of discovering groups in a high-dimensional dataset, in such way, that the similarity between the elements of the same cluster is maximum and between different clusters is minimal. Many clustering algorithms are not applicable to high dimensional space for its sparseness and decline properties. Dimensionality reduction is an effective method to solve this problem. The paper proposes a novel clustering algorithm CFSBC based onclosed frequent hemsets derived from association rule mining. which can get the clustering attributes with high efficiency. The algorithm has several advantages. First, it deals effectively with the problem of dimensionality reduction. Second, it is applicable to different kinds of attributes, Third, it is suitable for very large data sets. Experiment shows that the proposed algorithm is effective and efficient  相似文献   

16.
关联规则最大频繁项目集的快速发现算法   总被引:8,自引:1,他引:7  
提出一种快速发现最大频繁项目集的算法, 该算法对集 合枚举树进行改进, 结合自底向上与自顶向下的搜索策略, 利用非频繁项目集对候选最大频 繁项目集进行剪枝和降维, 减少了不必要候选最大频繁项目集的数量, 显著提高了发现的效 率.  相似文献   

17.
张长胜 《科学技术与工程》2013,13(23):6739-6745
提出一个数据流环境下的基于概念格和滑动窗口的频繁项集挖掘算法DSFMCL。算法在滑动窗口内分批挖掘新流入的基本窗口频繁概念后,生成概念格的Hasse图。引入最小支持度ζ和误差因子ε对非频繁概念节点进行剪枝操作。Hasse图中各节点包含频繁项集及其支持度信息。随着新基本窗口的Hasse图的生成与滑动窗口进行概念格纵向合并,最终通过对全部Hasse图节点的扫描可以输出所有频繁项集。实验结果表明,该算法具有良好的性能。  相似文献   

18.
Becausemining complete set of frequent patterns from dense database could be impractical, an interesting alternative has been proposed recently. Instead of mining the complete set of frequent patterns, the new model only finds out the maximal frequent patterns, which can generate all frequent patterns. FP-growth algorithm is one of the most efficient frequent-pattern mining methods published so far. However,because FP-tree and conditional FP-trees must be two-way traversable, a great deal memory is needed in process of mining. This paper proposes an efficient algorithm Unid_FP-Max for mining maximal frequent patterns based on unidirectional FP-tree. Because of generation method of unidirectional FP-tree and conditional unidirectional FP-trees, the algorithm reduces the space consumption to the fullest extent. With the development of two techniques:single path pruning and header table pruning which can cut down many conditional unidirectional FP-trees generated recursively in mining process, Unid_ FP-Max further lowers the expense of time and space.  相似文献   

19.
在经典的频繁闭合项集挖掘算法中,如Closet与Closet+,当条件模式数据库很庞大时,频繁项集的数目将会急剧增长,算法的效率会逐步恶化,并且算法挖掘结果的有效性也随着大量冗余模式的产生而下降.本文首先针对传统的FP-tree的算法,给出了一种改进的FP—tree算法,然后在新算法的基础上,提出新的频繁闭合项集挖掘算法,该算法只需把FP-Tree中所有由叶子结点到根结点的路径遍历一遍,就可以得到各项的所有子条件模式基,避免了传统FP-tree算法在同一条路径上向前回溯比较的繁琐.实验表明优化后的算法避免了资源的耗费,减少了频繁闭合项集挖掘的运算开销,大大提高了数据挖掘的效率.  相似文献   

20.
模糊规则发现算法研究   总被引:3,自引:0,他引:3  
引入最小强度的概念来限制模糊属性集的搜索范围,提出一种能发现强模糊规则的快速算法.此算法利用Apriori算法的搜索技术来发现强模糊规则,因此具有较高的算法效率,并有效地解决了模糊系统的维数灾难问题.在快速算法的基础上,又提出一种能发现固定数目的强模糊规则的划分算法.该算法将数据库划分成多个子数据库,并在于数据库上通过发现划分强模糊属性集来限制全局强模糊属性集的搜索范围.实验表明,划分算法比快速算法更节省时间.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号