首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到10条相似文献,搜索用时 31 毫秒
1.
提出了针对数据水平分布的分布式数据集下的全局最大频繁项集更新挖掘算法(UDMFI),用于解决当最小支持度阈值发生变化时全局最大频繁项集的更新挖掘问题.通过提出的带项目头表的频繁模式树(HFP-Tree)来存储数据,然后根据最小支持度阈值变小时,原最大频繁项集的集合中的元素一定是新最大频繁项集的集合中某些元素的子集的特性,以及最小支持度阈值变大时,原最大频繁项集中的一些最大频繁项集将可能不再是新最大频繁项集的集合中的最大频繁项集的特性,充分利用已挖掘的结果,从而减少挖掘过程中的费用.实验结果表明该算法具有较好的效率.  相似文献   

2.
基于FP-tree的最大频繁项集挖掘算法   总被引:1,自引:0,他引:1  
现有的最大频繁项集挖掘算法在支持度阈值较大情况下已达到较高性能,但在支持度阈值较小时,由于候选项集的快速增长,其性能往往不理想。文章提出了一种基于频繁模式树(FP-tree)存储结构的最大频繁项集挖掘算法——DMFIF算法,将FP-tree各分枝作为初始候选项集,并按维数和支持度递减排序,结合子集剪枝策略,自顶向下搜索挖掘最大频繁项集。实验结果表明,该算法在低支持度阈值下稠密数据集中挖掘长模式具有较好性能。  相似文献   

3.
分布式数据库的精简频繁模式集及其挖掘算法   总被引:1,自引:0,他引:1  
对分布式数据库关联规则的挖掘与精简表示进行了研究,把频繁闭项集和最大频繁项集的概念推广到分布式数据库中,提出了在分布式环境下的频繁模式集的精简表示方法,以及一种基于各站点的全局大项目集的全局频繁闭项集和全局最大频繁项集的挖掘算法.该算法具有占用空间少、通信量小等特点.最后用实例进行了证明.  相似文献   

4.
分布数据库关联规则挖掘   总被引:4,自引:0,他引:4       下载免费PDF全文
先从理论上证明分布数据库局部频繁集与全局候选频繁集之间存在某种关系 ,利用该关系设计分布数据库关联规则挖掘算法 .该算法的局部频繁集挖掘利用FP -树实现 ,不需生成候选频繁集 ,全局频繁集在局部频繁集基础上直接生成 ,不需重新扫描各局部数据库 ,不会造成过度的网络通信开销 ,具有很好的挖掘效率  相似文献   

5.
频繁项目集挖掘用于发现项目之间的关联规则.为了高效求解面向大数据的频繁项目集,本文提出一种新的基于FP_Growth的频繁项目集并行挖掘算法NPFP_Growth(New Parallel algorithm based on FP_Growth),该算法对频繁模式树的存储结构进行改进,基于Map/Reduce并行计算模型,利用HDFS实现数据存储,在各自计算节点上构造局部频繁模式树,求解该局部频繁模式树中每个分支的最长全局频繁项目集;对于全局非频繁项目集,计算其支持数,发送至相应计算节点进行支持度统计,从而以较为简单的算法实现频繁项目集并行挖掘.实验表明,NPFP_Growth算法具有较高的计算效率和良好的可伸缩性.  相似文献   

6.
针对在对分布式、多维数据流频繁模式挖掘算法研究时,没有删除多维数据流中的非频繁项集,存在平均处理时间长的问题,提出分布式多维数据流频繁模式挖掘算法。该方法根据人工神经网络特点,建立了人工神经网络模型,并对多维数据流训练,以达到提升挖掘效率的目的;并基于训练结果构造数据流频繁模式信息树,即频繁模式树(FR-tree:Frequent Pattern tree)。由于FR-tree中存在较多过期的多维数据流,所以需要对FR-tree剪枝,并删除非频繁项集,从而加快频繁模式计算速度,并采用分布式挖掘算法对全局FR-tree挖掘,从中取得多维数据流的频繁项集完全集,实现分布式多维数据流频繁模式的挖掘。通过对该方法的平均处理时间测试,验证了该方法的实用性。  相似文献   

7.
虽然已有的最大频繁项集挖掘算法在结构和技术上已经做了很多改进,但还是存在挖掘速度慢、效率低的缺点,在此提出了图的四叉链表存储结构和基于该存储结构的最大频繁项集挖掘算法,该结构具有一次生成多次使用,不必耗用额外的存储空间等特点,基于该存储结构的最大频繁项集挖掘算法充分利用了该存储结构的特点以及频繁扩展集的性质,有效地减少了冗余候选集的生成,降低了串的冗余存储,将串集合间的比较转化为整型数组的比较,从而使得它比已有的最大频繁项集挖掘算法在挖掘效率上有了明显的提高,最后通过实验证明了该算法较其他已有算法效率有了较大的提高.  相似文献   

8.
针对不确定数据频繁项集挖掘效率低和准确度不高的问题,提出了一种基于改进的频繁模式树(FPtree)和遗传算法(GA)挖掘不确定数据概率频繁项集的方法,即UFPGA(基于频繁模式树和遗传的挖掘算法).该算法根据不确定数据的构成特征,改进频繁模式树方法挖掘不确定数据频繁项集,采用缩小变异空间和增加育种算子的遗传算法搜索最大频繁项集,收缩了搜索范围,提高了挖掘效率.实验结果表明:该方法在时间复杂度方面有很好的优越性,对大规模的不确定数据挖掘提供了一种有效的技术手段.  相似文献   

9.
鉴于高维数据的稀疏性和分类数据特点,探讨了专门针对高维分类数据的聚类方法.首先将原始数据集转换成频繁项集,再通过改造频繁模式树以及给出的剪切策略,挖掘出事务的最大频繁项集,并基于最大频繁项集(MFI)的两个属性,将具有相同MFI的对象归于一类,由此提出了基于最大频繁项集的聚类算法.通过对分类数据集的实验,表明该算法具有相当的稳定性、健壮性和有效性.  相似文献   

10.
频繁模式挖掘是数据挖掘中的一个重要方向,对频繁模式的挖掘也存在多种不同的算法。本文提出一种以堆栈为辅助构造频繁模式挖掘的搜索树,从而用最少的数据扫描次数挖掘出数据库中存在的频繁模式的算法。该算法利用堆栈的递归性,尽可能减少了搜索树构造过程中造成的分支数目,即减少频繁模式挖掘中的数据扫描次数。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号