首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 15 毫秒
1.
最大频繁项集挖掘可以广泛应用在多种重要的Web挖掘工作中.为了有效地削减搜索空间,提出了一种新的最大频繁项集挖掘中的搜索空间剪枝策略.这种策略基于深度优先遍历词典序子集枚举树,利用树中子节点与父节点扩展集中相同项的扩展支持度相等的特性,对搜索空间进行剪枝.应用该策略,对MAFIA算法进行改进优化.实验结果表明,该剪枝策略可以有效削减搜索空间,尤其在稀疏但包含长频繁项集的数据集上,搜索空间削减掉2/3,算法的时间效率比原MAFIA算法提高3~5倍.  相似文献   

2.
剪枝策略(pruning mechanisms)是频繁模式挖掘算法常用方法之一,通过该策略可以快速克服工业生产中可能发生的金融危机,从而最大限度地提高制造业的生产能力.现有的剪枝策略算法仅考虑每个产品的利润信息,不考虑产品的权重,所以效率低下.提出了一种新的剪枝挖掘算法.通过基于低估值的约束和组件权重的挖掘索引器进行的...  相似文献   

3.
为了减少无用候选序列的生成,并使挖掘得到的序列模式符合用户要求,约束条件下的频繁序列模式挖掘已成为数据挖掘领域的一个新的重要研究方向.作为强约束形式的一种,均值约束目前仍然是基于约束的频繁序列模式挖掘的一个困难问题,其主要原因在于很难利用均值约束来进行序列模式挖掘中的剪枝.为此,提出了一种基于均值约束满足度剪枝策略,并且以前缀增长方法为基础设计了一个有效的频繁序列模式挖掘算法.通过分析并实验验证了该算法的时间效率和剪枝性能,结果表明,该方法是有效的.  相似文献   

4.
关联规则挖掘的一种多剪枝概念格方法   总被引:1,自引:0,他引:1  
多数据源上关联规则挖掘方法,由于各数据节点间相互通信的候选项集数目过于庞大或者挖掘过程需要对数据库进行多次扫描,导致挖掘算法效率不高。研究剪枝概念格(pruned con-cept laffice,PCL)中概念与频繁项集表示关系,定义剪枝格上的导出频繁项集,设计了一个利用多剪枝概念格从多数据源上挖掘近似所有关联规则的算法UMPCL(union algorithm of multiplepruned concept lattice)。利用一个频繁概念表示一些频繁项集以减少挖掘过程中产生的侯选项集数,使用与全局支持度相等的局部支持度对各子概念格进行剪枝,最后融合、剪枝各子剪枝格并提取全局关联规则。理论分析和实验验证表明该算法是有效的。  相似文献   

5.
随着互联网技术的快速发展与普及,尤其是Web2.0时代的来临,网络数据量与日俱增.对新增数据进行挖掘成为数据挖掘领域研究的热点之一.基于存在全局站点的分布式数据挖掘思想,提出了一种存在全局站点的分布式增量挖掘算法.首先对局部站点的增量数据进行全局挖掘,有效减少了局部站点对原有数据的扫描次数;然后在全局站点采用新的剪枝策略,极大地降低了产生的候选集数量;最后通过实例验证了所给算法切实可行,并具有较好的挖掘效率.  相似文献   

6.
图数据的挖掘工作是数据挖掘工作中的重要组成部分,已经有许多人在这个领域进行了深入的研究.由于数据获取不可避免噪音数据,故在挖掘频繁图时考虑近似十分重要.然而许多此前的工作只考虑了子图间编辑距离(Graph Edit Distance,GED)的绝对值,而没有考虑子图间编辑距离与子图大小的相对关系.提出了一种在单图中进行近似频繁子图挖掘的新算法,并在计算近似程度时考虑当前子图的大小.该算法通过对近似频繁子图的大小上限进行预测,并通过局部反单调性进行剪枝,提高了算法的效率.实验表明,该算法能够挖掘出传统算法无法发现的近似频繁子图,且相比对比算法具有更好的时间性能.  相似文献   

7.
发现约束最大频繁项目集是多种数据挖掘应用中的关键问题.目前已有许多算法可用于发现约束频繁项目集,而对约束最大频繁项目集的挖掘研究工作却很少.因此,需要设计一种高效的算法来挖掘出约束最大频繁项目集.为此,笔者提出了一种快速的约束最大频繁项目集的挖掘算法,并举例说明了该算法的执行过程.  相似文献   

8.
郑杰  张勇军 《科技信息》2010,(21):I0080-I0080,I0112
频繁项集的挖掘是数据挖掘中的一个基础和核心问题,具有广泛的应用领域。由于它是数据挖掘过程中最耗时的部分,挖掘算法的好坏直接影响数据挖掘尤其是关联挖掘的效率和应用范围。  相似文献   

9.
δ无关集的引入可解决数据挖掘领域中挖掘出来的频繁项集数量过大以及在实际应用中获取准确项集支持度代价过大的问题。针对传统方法生成无关集生成效率过低等问题,本文提出了一种在FP树上快速生成、结合一定的剪枝策略的快速挖掘算法FMINEX。实验效果证明,该算法在挖掘过程中,时间和空间性能都比较好。  相似文献   

10.
提出一种改进的Eclat算法.该算法在垂直数据表示方式上执行广度优先搜索和交叉计数.新算法充分利用了垂直数据表示和交叉计数的高效优势,以及Apriori算法的剪枝策略,减少了计数的候选项集的数量.实验结果表明,改进的Eclat算法的运行速度较Eclat算法有了明显的提高.  相似文献   

11.
文章在研究基于剪枝概念格的频繁项集表示的基础上,提出了基于多剪枝概念格模型的频繁项集表示与挖掘方法。该方法在多剪枝格基础上进行导出频繁项集的合并,进而获得全局频繁项集,有效地降低了频繁项集表示的规模;理论分析和实验结果表明,该方法能获得满足用户要求的近似所有全局频繁项集。  相似文献   

12.
在ID3算法基础上提出了基于卡方测试的前剪枝算法,并在Jbuilder2006系统下构建了一个基于决策树挖掘技术的可视化决策系统。该研究基于B/S架构的系统,通过浏览器自动将服务器上的A pplet下载到客户端来访问系统,实现了医疗系统的手术诊断数据表的数据挖掘,所得到的实验结果与专家诊断结果基本吻合,取得了较好的实际应用效果。  相似文献   

13.
基于蚁群优化的分类规则挖掘方法   总被引:1,自引:0,他引:1  
蚁群优化是人工智能领域中群体智能分支之一,已成功地应用于复杂优化问题的求解,但其在知识发现领域的应用还是一个新的研究课题。在此提出一种新的基于蚁群优化的分类规则挖掘方法,先利用蚁群算法通过对属性约简简化数据集,再使用蚁群算法进行分类规则的挖掘,并用新的规则剪枝方法,提高了分类算法的效率和准确率。实验表明该方法是有效的。  相似文献   

14.
频繁序列模式挖掘算法   总被引:5,自引:0,他引:5  
为解决从数据库中挖掘长模式和支持度较低时可能遇到计算复杂度较高的问题,提出一种新的算法--EFSPAN(Effective Frequent Sequential PAtterN mining algorithm).算法采用了深度优先挖掘策略,并将基于前缀序列格的深度优先遍历与两种高效的剪枝策略相结合.实验结果表明:新算法在模式较长和支持度较低时,能使搜索空间中60%以上的节点免被搜索;从而大大缩小了搜索空间,降低了序列模式挖掘算法的计算复杂度.  相似文献   

15.
挖掘最大频繁项目集是多种数据挖掘应用中的关键问题,如果采用Apriori类的候选项目集生成一检验方法,则候选项目集生成的代价通常很高.为寻求避免生成大量候选项集或生成频繁模式树的挖掘算法,提出一种从事务项集交集求最大频繁项集的迭代算法DIIP(Datasets Iteration and Intersection Pruning Algorithm),通过不断缩减事务集数据量和尽可能早地对项目集进行修剪实现最大频繁项集的挖掘,该算法有别于已有的最大频繁项集经典算法,实验表明该算法有效可行.  相似文献   

16.
由于在现有的闭频繁项集挖掘算法中,剪枝策略相对单一,大都是针对1-项集进行剪枝,对2-项集和n-项集(n≥3)的剪枝策略相对匮乏,而有效的剪枝策略可以提前发现并剪掉大量没有希望的项集,因此改进闭频繁项集的剪枝策略对此类算法效率的提升具有很大的帮助。为此在ESCS(Estimated Support Co-occurrence Structure)结构基础上,提出针对2-项集的ESCS剪枝策略,并应用其将经典闭频繁项集挖掘算法DCI_Closed(Direct Count Intersect Closed)改进为DCI_ESCS(Direct Count Intersect Estimated Support Co-occurrence Structure)算法,同时对ESCS剪枝策略的效果加以验证。在多个公开数据集上、不同最小支持度阈值下,对改进前后算法时间性能进行比较实验。实验结果表明,改进的DCI_ESCS算法在事务和项集较长的、较稠密的数据集上表现良好,时间效率均有一定程度的提高。  相似文献   

17.
在比较当前几种并行关联规则挖掘算法的基础上,为了解决CD、FDM、DDM算法的候选集和执行时间方面存在的问题,结合关联规则的性质定理,提出了一种改进的并行关联规则算法IPARM.在无共享的工作站机群上进行性能测试,采用改进并行算法的执行效率提高了,达到了算法优化的目的.  相似文献   

18.
针对FBCM(基于矩阵压缩FUP(fast update algorithm))算法在项集挖掘过程中存在频繁扫描原频繁项集库, 并生成大量候选集的问题, 提出一种通过提取数据库中最频繁项的方法, 以降低对原频繁项集库的扫描次数; 并通过候选集剪枝思想, 减少算法整体运行过程中的候选集生成, 以提高频繁项集的挖掘速度. 实验结果表明, 在相同实验条件下, 该算法的效率比FBCM算法效率提高15%以上, 最高达60%.  相似文献   

19.
文章依托美国国家航空航天局空间科学战略规划,首先介绍美国航空航天局的组织架构,梳理和剖析其空间科学战略优先事项实施机制,其次深入挖掘优先事项评估机制,发现在优先事项发展进程中美国航空航天局主要通过全面的内部评估和外部评估确保优先事项的成功落实。最后,借鉴美国空间科学战略优先事项实施与评估机制,针对国内空间科学发展,提出制定精细化战略目标、构建空间科学任务生命周期全链条评估机制等相关建议。  相似文献   

20.
主流数据挖掘算法不能有效解决大规模数值数据集挖掘问题。提出了一种应用于大规模数值数据集的线性时间封闭项集挖掘改进(Improved Linear time Closed Itemsets Minner, ILCM)算法。ILCM算法使用能够提取属性共同变化量的渐进模式挖掘方法,借鉴LCM算法的前缀保留闭合扩展思想,通过深度优先搜索输出频繁封闭渐进项集结果。实验证明,相比传统挖掘算法,ILCM能够显著提高算法运行效率和降低内存空间占用,并且能够有效处理如DNA微阵列等实际大型数值数据集挖掘。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号