首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 121 毫秒
1.
频繁项集的挖掘不仅仅是关联规则挖掘的基础,而且在序列模式、聚类、多维模式等数据挖掘任务中扮演重要角色.本文在给出一个基于数据垂直分布的频繁项集挖掘算法HBMFP的基础上,论述了利用MFC中的树视图控件(CTreeCtrl)将频繁项集树形可视化,并讨论了基于该频繁模式树的3种约束频繁项集查询的方法.  相似文献   

2.
关联规则挖掘算法研究   总被引:5,自引:0,他引:5  
本文论述了关联规则的基本概念、分类、基于频繁项集思想的关联规则挖掘算法——Apriofi算法,以及在基础上对Apfiofi算法的各种改进算法。然后对基于非频繁项集的各种关联规则挖掘算法,多维多层次挖掘算法思想进行了讨论。最后指出了关联规则挖掘的未来研究方向。  相似文献   

3.
提高频繁项集挖掘算法的效率一直是数据挖掘领域中关联规则挖掘研究的一个重点。Apriori算法是一种经典的最有影响的挖掘关联规则的算法,该算法虽然能有效地挖掘出关联规则,但是产生的冗余规则多,效率低下。针对数据挖掘的现状及关联规则算法的瓶颈问题,提出一种基于串与运算的关联规则挖掘算法,并对关联规则挖掘的未来研究方向进行了展望。  相似文献   

4.
关联规则是数据挖掘中的一个重要研究方向.经典的Apriori算法是一种最有影响的挖掘布尔型关联规则频繁项集的算法,但其并不适合挖掘近年来兴起的多维数据模型.在改进Apriori算法的基础上,提出了一种"二次剪枝"的算法,此算法适用于挖掘多维关联规则,并且在一定程度上提高了算法效率.  相似文献   

5.
基于图的最大频繁项集的生成算法   总被引:1,自引:0,他引:1  
挖掘频繁项集是数据挖掘的重要技术之一,目前已有很多经典算法,如:apriori算法,FP-tree等.挖掘频繁项集主要是寻找最大频繁项集,为了快速寻找最大频繁项集,通常采用削减候选项集、减少扫描数据库次数的方法和将自底向上与自顶向下的搜索方法结合起来(又称双向搜索).双向搜索能有效地缩减搜索空间.本文把基于图的关联规则挖掘和双向搜索的思想结合起来产生最大频繁项集,提出了基于图的最大频繁项集生成算法.此算法用图将数据映射到一个向量上,通过一遍扫描数据库就可以构造整个频繁项集,结合双向搜索,能快速生成频繁项集,对产生较大长度的最大频繁项集也有较好的效果.文末,把基于图的关联规则挖掘算法和基于图的最大频繁项集算法进行了比较,分析出性能差别的原因.  相似文献   

6.
阐述了关联规则挖掘对象事务数据库的特性,对关联规则挖掘的关键问题频繁项集的几种挖掘方法:Aptiori算法、最大频繁项集的挖掘算法、基于频繁链表的频繁项集挖掘算法作了分析研究,并指出了频繁项集挖掘算法优化的必要途径。  相似文献   

7.
基于关联规则的数据挖掘算法的时空耗费关键主要有两个:一个是需要对海量事务数据库进行多趟趋势,另一个是在JOIN运算中产生了大量潜在频繁项集。提出了利用堆栈模型动态生成频繁项集,每次用上次为产生新的频繁项集,边产生边判断,把满中最小信任度的频繁项集存放于链表中,减少了JOIN运算产生的多余项所占用的空间耗费。利用事务压缩法来减少事务库数据规模,对每次扫描后的事务数据库进行优化,从而达到减少空间耗费和扫描规模,提高效率的目的。  相似文献   

8.
关联规则的挖掘是数据挖掘中的一个重要课题.实际应用中事务数据库不断更新,而发现频繁项集代价较高,因此需要提出用于数据库中关联规则的维护算法.本文提出了基于矩阵的MFUP(matrix fast updata)算法,该算法充分利用原有挖掘结果中候选频繁项集的支持数,能有效减少对数据库的重复扫描次数.实验表明,MFUP算法是高效的.  相似文献   

9.
阐述了关联规则挖掘对象事务数据库的特性, 对关联规则挖掘的关键问题频繁项集的几种挖掘方法:Apriori算法、最大频繁项集的挖掘算法、基于频繁链表的频繁项集挖掘算法作了分析研究,并指出了频繁项集挖掘算法优化的必要途径  相似文献   

10.
在分布式系统中如何挖掘关联规则是数据挖掘领域研究的一个重要课题.对关联规则分布式挖掘问题进行了深入探讨.基于以P2P网络模式构建的分布式事务数据库,对Apriori算法进行了推广.改进后的算法具有扩展性好、效率高、通信代价小和实现简单等优点.最后,还提出了一种由频繁项集高效产生强关联规则的算法.  相似文献   

11.
基于条件模式树的最大频繁模式挖掘算法在挖掘过程中将扫描事务数据库两次,且产生了大量的候选项目集,产生最大频繁模式过程中比较次数较多,总体效率较低.提出改进后的最大频繁模式挖掘策略,利用二维表保存事务出现项目的情况,通过最大频繁模式的相关性质减少了挖掘的项数及产生的频繁模式集,减少比较的次数.  相似文献   

12.
为有效提高peer to peer(P2P)系统在文件共享应用中的资源搜索速度,解决P2P节点的负载均衡,保证P2P共享系统的稳定性、可靠性和扩展性,提出了一种基于补充频繁模式的快速查询响应方法,主要工作包括:(1)提出满事务和补充频繁模式概念及补充频繁模式树(SFP-Tree)结构,其主要思路是利用具有较高支持度计数的短频繁模式B,吸收与B一起构不成频繁模式但又达到一定共享支持度阀值的单项构成基项集的补充项,B的所有补充单项构成其补充项集S,在此基础上查找包含B的最大频繁项集X,并从S中排除与X一起达不到共享支持度阀值的补充项,从而以X和S的子集构成一个以B为基项集的具有足够长度的补充频繁模式; (2)实现了补充频繁模式的挖掘方法,其主要思路是在构成整个事务数据库升序FP-Tree(AFP-Tree)基础上,递归挖掘条件混合模式树(CMP-Tree),在基项达到指定长度时,生成补充频繁模式树SFP-Tree,在此基础上挖掘带有负项的补充频繁模式,最后针对带有负项的补充频繁模式生成只包含正项的补充频繁模式; (3)模拟一份文件资源的历史响应事务集进行详实的实验,实验结果表明对于数据集规模达到100,000的P2P系统历史响应事务数据库,基于SFP-Tree的补充频繁模式挖掘方法能在20秒以内生成此文件资源的有效响应列表并能选择其中一个列表的有效子集瞬时响应查询请求。  相似文献   

13.
由于在实际的数据挖掘过程中容易出现无用的频集和冗余的规则,所以降低频集和规则的冗余度可大大提高挖掘的质量,这也是数据挖掘中一直被关注的问题,提出了一个用等价类生成关联规则的方法,算法主要在频集的基础上建立项集的等价关系,进而对项集划分等价类,同时将得到的关联规则划分为精确关联规则和近似关联规则两个集合,通过等价类,不但可以很容易地生成所需要的关系规则,同时可以方便地判断数据之间依赖关系的强弱,同时,项集的等价关系在实际应用中也很有利用价值,算法最后的规则结果集剔除了由来自同一等价类中的面集的重复出现构成的冗余规则,从而得到了较小的关联规则集合。  相似文献   

14.
基于有向图的关联规则挖掘算法研究   总被引:2,自引:0,他引:2  
为了提高关联规则挖掘效率,提出了一种基于有向图的频繁项目集挖掘算法DGBFIG(Directed graph -based frequent itemsets generation).该算法采用位矢量技术构造有向图,表示项与项之间的频繁关系,并在有向图的基础上递归产生频繁项集,从而只需扫描数据库2次,不产生候选集,从而大大提高了关联规则挖掘算法的效率.最后从空间和时间的复杂度分析了该算法的效率.  相似文献   

15.
针对Apriori 关联规则算法中的瓶颈问题,提出了一种Apriori_improve 算法.该算法根据组合元素的计数结果排除一些不符合组合条件的元素,并在扫描数据库后"删除"一些不能支持频繁集的记录,迅速减小了数据库规模.实例表明:对于大型数据库的挖掘,该算法比Apriori算法的效率有明显地提高.  相似文献   

16.
针对FBCM(基于矩阵压缩FUP(fast update algorithm))算法在项集挖掘过程中存在频繁扫描原频繁项集库, 并生成大量候选集的问题, 提出一种通过提取数据库中最频繁项的方法, 以降低对原频繁项集库的扫描次数; 并通过候选集剪枝思想, 减少算法整体运行过程中的候选集生成, 以提高频繁项集的挖掘速度. 实验结果表明, 在相同实验条件下, 该算法的效率比FBCM算法效率提高15%以上, 最高达60%.  相似文献   

17.
频繁项目集是满足最小支持度和最小置信度下的一个项目集合,但随着最小支持度的不同,就会产生不同的频繁项目集,而频繁项目集的发现又是一个高花费的过程.该文提出一个新的维护算法,用来解决关联规则的更新维护问题.  相似文献   

18.
指出了时序关联规则在支持度度量上的不足,存在处理高密度海量数据时往往要耗费大量的时间处理规模巨大的频繁候选集,同时需要多次重复扫描数据库,执行效率低等问题,提出了重新定义支持度度量方法的时序关联规则.针对时序关联规则在解决项分类时涉及到的分层不确定、不准确情形,引入了基于隶属度的模糊层次分类结构,定义了项间距离、项集间距离,最终得到一种新的关联规则间距离的度量方法.实现了模糊层次分类,将时序关联规则结果进行聚类分析,得到规则和规则之间相似性,实验验证了该方法的有效性.  相似文献   

19.
Data Fusion Algorithm Based on Fuzzy Sets and D-S Theory of Evidence   总被引:2,自引:0,他引:2  
《清华大学学报》2020,25(1):12-19
In cyber-physical systems, multidimensional data fusion is an important method to achieve comprehensive evaluation decisions and reduce data redundancy. In this paper, a data fusion algorithm based on fuzzy set theory and Dempster-Shafer(D-S) evidence theory is proposed to overcome the shortcomings of the existing decision-layer multidimensional data fusion algorithms. The basic probability distribution of evidence is determined based on fuzzy set theory and attribute weights, and the data fusion of attribute evidence is combined with the credibility of sensor nodes in a cyber-physical systems network. Experimental analysis shows that the proposed method has obvious advantages in the degree of the differentiation of the results.  相似文献   

20.
为解决在挖掘频繁项集过程中,因忽略不同项目间的重要程度而导致的挖掘有效性低以及忽略数据的动态更新而造成的挖掘效率低的问题,通过引入新的加权规则,从权值与频数两方面去体现项目间的重要性差异,并通过引入树形结构与关系矩阵提高数据动态变化时频繁项集的挖掘效率。创新性地提出基于动态数据的加权频繁项集挖掘算法weighted dynamic date mining (WDDM)。实验结果表明,WDDM算法较以往算法挖掘效率与有效性显著提高,有利于发现更多有研究价值的信息。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号