首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 156 毫秒
1.
最大频繁项集挖掘可以广泛应用在多种重要的Web挖掘工作中.为了有效地削减搜索空间,提出了一种新的最大频繁项集挖掘中的搜索空间剪枝策略.这种策略基于深度优先遍历词典序子集枚举树,利用树中子节点与父节点扩展集中相同项的扩展支持度相等的特性,对搜索空间进行剪枝.应用该策略,对MAFIA算法进行改进优化.实验结果表明,该剪枝策略可以有效削减搜索空间,尤其在稀疏但包含长频繁项集的数据集上,搜索空间削减掉2/3,算法的时间效率比原MAFIA算法提高3~5倍.  相似文献   

2.
挖掘高效用项集已成为关联分析中的热点问题之一.多数高效用项集挖掘算法需要产生大量的候选项集,影响了算法性能.HUI-Miner是一个不需要产生候选项集就能发现事务数据库中所有高效用项集的算法.但其需要产生大量效用列表,不仅消耗了过多的存储空间,而且影响了算法的运行性能.针对此问题,提出一个新的数据结构,称为项集列表,用于存储事务和项的效用信息.提出3种剪枝策略,减少项集列表的数量,通过扫描一次事务数据库完成所有项集列表的构建.提出算法MHUI,直接从项集列表中挖掘所有的高效用项集而不产生任何候选项集.在3个不同的稀疏数据集上和最新的算法进行对比实验证明,MHUI算法的运行时间和内存消耗优于其他算法.  相似文献   

3.
基于FP-tree的最大频繁项集挖掘算法   总被引:1,自引:0,他引:1  
现有的最大频繁项集挖掘算法在支持度阈值较大情况下已达到较高性能,但在支持度阈值较小时,由于候选项集的快速增长,其性能往往不理想。文章提出了一种基于频繁模式树(FP-tree)存储结构的最大频繁项集挖掘算法——DMFIF算法,将FP-tree各分枝作为初始候选项集,并按维数和支持度递减排序,结合子集剪枝策略,自顶向下搜索挖掘最大频繁项集。实验结果表明,该算法在低支持度阈值下稠密数据集中挖掘长模式具有较好性能。  相似文献   

4.
鉴于高维数据的稀疏性和分类数据特点,探讨了专门针对高维分类数据的聚类方法.首先将原始数据集转换成频繁项集,再通过改造频繁模式树以及给出的剪切策略,挖掘出事务的最大频繁项集,并基于最大频繁项集(MFI)的两个属性,将具有相同MFI的对象归于一类,由此提出了基于最大频繁项集的聚类算法.通过对分类数据集的实验,表明该算法具有相当的稳定性、健壮性和有效性.  相似文献   

5.
不确定性数据的频繁项集挖掘的算法—U-apriori算法采用逐层迭代搜索方法,使用候选项集来找频繁项集.分析了U-apriori算法的流程和实现过程,并通过实验对比得出U-apriori算法花费较少时间和空间的优点,最后针对该算法的缺点提出了改进思路.结果表明:U-apriori算法是最佳概率频繁模式挖掘方法之一.  相似文献   

6.
基于图的最大频繁项集的生成算法   总被引:1,自引:0,他引:1  
挖掘频繁项集是数据挖掘的重要技术之一,目前已有很多经典算法,如:apriori算法,FP-tree等.挖掘频繁项集主要是寻找最大频繁项集,为了快速寻找最大频繁项集,通常采用削减候选项集、减少扫描数据库次数的方法和将自底向上与自顶向下的搜索方法结合起来(又称双向搜索).双向搜索能有效地缩减搜索空间.本文把基于图的关联规则挖掘和双向搜索的思想结合起来产生最大频繁项集,提出了基于图的最大频繁项集生成算法.此算法用图将数据映射到一个向量上,通过一遍扫描数据库就可以构造整个频繁项集,结合双向搜索,能快速生成频繁项集,对产生较大长度的最大频繁项集也有较好的效果.文末,把基于图的关联规则挖掘算法和基于图的最大频繁项集算法进行了比较,分析出性能差别的原因.  相似文献   

7.
已有的Top-k高效用项集挖掘为了保持向下封闭性,利用项集的事务效用代替其真实效用,使得项集效用被估计得过大,导致剪枝效果不好,挖掘效率较低.针对这一问题,提出了索引效用的概念,在此基础上建立两级索引,并进行索引剪枝,增强了挖掘中剪枝的效果,提高了Top-k高效用项集挖掘的效率;此外,通过建立效用矩阵,支持对项集效用的快速计算,进一步提高了挖掘效率.不同类型数据集上的实验验证了所提出的Top-k高效用项集挖掘方法的有效性和高效性.  相似文献   

8.
为了减小常量条件函数依赖的搜索空间,提高挖掘效率,针对常量条件函数依赖挖掘算法CFDMiner,提出了一系列剪枝优化策略。理论研究发现,CFDMiner的输入——关系数据的全部开项集和闭项集对产生有效的常量条件函数依赖仍然存在很多无效、冗余的项集。从理论上证明了通过合理剪枝,选取开项集的子集与对应的闭项集,能够得到与原算法一致的结果。实验表明:相比原始算法CFDMiner,优化后的算法搜索空间更小,实际数据集上平均挖掘效率提高4~5倍。  相似文献   

9.
为提高挖掘频繁项集的效率,在垂直数据格式下,结合分治思想提出一种基于分治策略与位运算频繁项集挖掘算法DC-FIMBII。利用分治将数据库中的事务划分为多个非重叠部分,对每一部分采用位运算求交计算支持度,从而减少操作时项集的规模和项集的比较次数。在mushroom、pumsb_star和T40I10D100K等数据集上,对DC-FIMBII、Apriori、Eclat、DF-FIMBII等算法进行比较。实验表明,DC-FIMBII具有更高的效率。  相似文献   

10.
设计了一种不同于传统关联规则挖掘算法(如Apriori算法等)频繁项集产生算法.该算法借鉴一般免疫算法思想,并从新的角度来看频繁项集的定义,避免了传统算法中存在的"项集生成瓶颈"问题.通过对mushroom数据的频繁项集挖掘的实验,与传统方法进行了比较,其结果表明,基于免疫算法的频繁项集挖掘算法在大数据集、低支持度情况下平均挖掘时间短.  相似文献   

11.
一种基于限制的关联规则数据开采的算法   总被引:2,自引:1,他引:1  
针对海量数据库开采时,现有的关联规则算法效率非常低下的问题,提出一种附加最小保证度的限制,并在此基础上提出一种新开采算法,可减少频繁项目集的数量,并显著地降低I/O时间和CPU时间。  相似文献   

12.
常见关联规则算法分析与比较   总被引:2,自引:0,他引:2  
介绍了常见的10种关联规则算法:AIS算法、SETM算法、A州州算法等,并对各种算法的性能进行了分析比较.其中SETM算法效率最低,但和DBMS集成的最好,AVM算法效率最高,但只适用于布尔类型的关联规则.  相似文献   

13.
关联规则的挖掘是数据挖掘中的一个重要课题.实际应用中事务数据库不断更新,而发现频繁项集代价较高,因此需要提出用于数据库中关联规则的维护算法.本文提出了基于矩阵的MFUP(matrix fast updata)算法,该算法充分利用原有挖掘结果中候选频繁项集的支持数,能有效减少对数据库的重复扫描次数.实验表明,MFUP算法是高效的.  相似文献   

14.
一种改进的离群点检测方法   总被引:1,自引:0,他引:1       下载免费PDF全文
现有的离群点检测算法运用于规模较大的数据集时,其时间效率和检测效果通常不够理想.通过对离群点分布特征的分析,在计算每个数据点到其kth最近邻对象距离的同时,结合其k最近邻的分布情况,给出一种改进的离群点度量方法.基于上述思想构造的离群点检测算法DokOF能够处理混合属性数据.实验表明,该算法具有良好的适用性和有效性.  相似文献   

15.
关联规则是数据挖掘中的一种重要模式,自1993年R.Agrawal引入关联规则概念和提出第一个关联规则算法以来,诸多研究人员对关联规则挖掘的算法进行了广泛的研究.但专门研究挖掘稀疏数据的有效算法较少.针对稀疏数据,提出了一个使用简单数据结构——链表的挖掘算法,与其它算法比较,实验结果表明是非常有效的.  相似文献   

16.
关联规则Apriori算法的改进   总被引:7,自引:0,他引:7  
Apriori算法是关联规则提取的经典算法,但存在一些不足之处。关联算法的研究主要集中在提高Apriori算法的效率上。本文分析了该算法并进行了改进,使得频繁集产生的同时精简事务集。这种算法及时去掉了不必要的数据,减少了数据运算,从而使算法更优化。  相似文献   

17.
作为大数据的重要组成,产生于传感器、移动电话设备、社交网络等的不确定流数据因其具有流速可变、规模宏大、单遍扫描及不确定性等特点,传统聚类算法不能满足用户高效实时的查询要求.首先利用MBR(minimum bounding rectangle)描述不确定元组的分布特性,并提出一种基于期望距离的不确定数据流聚类算法,计算期望距离范围的上下界剪枝距离较远的簇以减少计算量;其次针对簇内元组的分布特征提出了簇MBR的概念,提出一种基于空间位置关系的聚类算法,根据不确定元组MBR和簇MBR的空间位置关系排除距离不确定元组较远的簇,从而提高聚类算法效率;最后在合成数据集和真实数据集进行实验,结果验证了所提出算法的有效性和高效性.  相似文献   

18.
为提高分类挖掘的准确度,在分析ID3,C4.5和进化算法(EC)的基础上,设计了两个共同进化的种群分别表示选择的属性子集和分类规则子集,提出基于共同进化计算的分类规则算法(CRCEC),并构建CRCEC算法的适应度评价函数.用4个加利福尼亚大学Irvine分校的数据集对CRCEC,ID3,C4.5和EC算法进行测试比较,结果表明CRCEC算法分类准确度高,可以得到简洁的、可理解性强的规则.最后给出了CRCEC算法在公路车辆征费分类预测系统中的一个应用实例.  相似文献   

19.
关联规则数据挖掘方法的研究   总被引:1,自引:0,他引:1  
在数据挖掘技术中有很多研究领域,关联规则数据挖掘就是其中一个重要的研究方向,对它进行深入研究不仅有着重要的理论意义,而且有着极其重要的应用价值。分析和研究Apriori算法,针对该算法中存在的效率瓶颈问题,提出了一个改进的挖掘算法FDBM_Apriori算法,并实现了该算法。理论和实验证明,FDBM_Apriori算法具有良好的性能。  相似文献   

20.
基于候选最大频繁项目集的关联规则挖掘算法   总被引:3,自引:0,他引:3  
提高频繁项目集算法的效率是关联规则挖掘研究的一个重点领域 ,就此提出了基于候选最大频繁项目集的关联规则挖掘算法 ,通过实例说明了算法的执行过程 ,并与FP -Tree等其他算法作了比较  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号