首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 62 毫秒
1.
研究工作者已经提出了许多对事务数据库中频繁模式、关联规则的挖掘算法.早期算法有Apriori算法,然而该算法利用候选项集找频繁项集,而候选项集的产生往往是非常耗时的.JianweiHan等人提出了一种改进的算法,FP-growth算法.该算法不产生候选项集,效率比Apriori算法提高了近一个数量级.在描述FP-growth算法的基础上,具体讨论了如何优化数据结构,有效的实现该算法.  相似文献   

2.
在众多的关联规则挖掘算法中,Apriori算法是最为经典的一个,但Apriori算法有以下缺陷:需要扫描多次数据库、生成大量候选集以及迭代求解频繁项集。因而提出了一种新方法,使Apriori算法产生的候选项集再通过数据库查找是否为频繁项集,从而提高算法的效率。最后针对入侵检测系统形成关联规则。实验结果表明,改进后的算法...  相似文献   

3.
Apriori算法是关联规则的一个重要算法。对关联规则挖掘算法Apriori算法的关键思想以及性能进行了研究,通过对候选项集的属性进行加权运算,减少了产生的频繁集,提高了算法的效率,使算法产生的规则更有应用价值。  相似文献   

4.
针对Apriori算法在第二次迭代过程中产生大量候选集的弊端,在Spark大数据框架下,将Apriori算法进行并行化处理。提出一种基于Spark平台的改进Apriori算法——I-Apriori;该算法利用Spark基于内存计算的抽象对象(RDD)存储频繁项集,在第二次迭代中,通过使用改进的布隆过滤器存储频繁1项集,消除候选集生成,减少数据库扫描次数,提高算法效率。实验结果表明,相比基于Spark平台的Apriori算法进行性能评估,I-Apriori算法具有更优的性能,能够较大程度地提高大数据关联规则挖掘的效率。  相似文献   

5.
Apriori算法存在候选集、频繁集产生效率低,丢失有趣强关联规则等问题,提出一种基于分辨矩阵可以采掘含负属性项强关联规则的改进算法,最后给出一个实际例子实现该算法.  相似文献   

6.
识别所有频繁项目集是Apriori算法的核心,针对关联规则中Apriori算法存在的运行效率和存储空间上的不足,提出一种基于数组的Apriori算法,从而减少了候选频繁集冗余,提高了算法效率.对高校学生体质测试项目进行挖掘分析,找出了各测试项的关联关系并对各测试项目设置的合理性进行了判断.  相似文献   

7.
Apriori算法是经典的关联规则挖掘算法,主要缺点是可能产生大量的候选集和需要多次扫描数据库.从幂集运算的角度提出了一种新的关联规则挖掘算法P_DM算法,实现了只需要扫描一次数据库就产生所有频繁集.实验证明这种算法在中小规模数据挖掘上效率优于Apriori算法.  相似文献   

8.
基于向量的频繁项集挖掘算法研究   总被引:1,自引:0,他引:1  
针对Apriori算法寻找频繁项集时,需要多次扫描事务数据库和可能产生大量候选项集的问题,提出了一种向量和数组相结合的频繁项集挖掘算法。该算法不仅实现了只扫描事务数据库一次,而且避免了模式匹配,减少了无价值的候选项集的产生。通过与已有算法的比较,验证了本文算法具有较高的挖掘效率,而且数据库的项数越多,此算法的挖掘效果越明显。  相似文献   

9.
Apriori算法是关联规则挖掘的经典算法,具有原理简洁、易编程实现等优点,得到广泛应用。针对该算法扫描数据库次数过多,产生大量冗余候选集的缺陷,在现有Apriori算法改进优化思想的基础上,结合矩阵、改进频繁模式树和计算候选集频数优化策略提出了一种改进的关联规则挖掘算法——MIFP-Apriori算法。实验表明,该算法能够将扫描数据库次数降低到一次,有效解决产生大量冗余候选集的缺陷,提高算法效率。  相似文献   

10.
Apriori算法是关联规则挖掘中最经典的算法,但它存在两大致命缺陷:需多次扫描数据库和产生海量的候选项目集。从这两个角度出发改进算法,提出了一种基于模式矩阵的高效改进算法(简称P-Matrix算法),使扫描数据库的次数减少为一次,同时不产生候选项目集而直接产生频繁项目集,从而使算法的时间复杂度和空间复杂度大大减少,有效地提高了Apriori算法的效率。  相似文献   

11.
作者针对某露天矿开采程序选择问题,采用双基点法对其综合排序,同时通过灵敏度分析找出影响排序的敏感指标,为矿山设计时合理选择开采程序提供了一种有效、实用的分析方法。  相似文献   

12.
双重区间值聚类挖掘模型   总被引:1,自引:1,他引:0  
提出了双重区间值聚类的数据挖掘模型:首先将每个属性的取值按照领域知识划分为若干类。接着统计每个类在各条“交易”中出现的频率(支持度),最后再按照关联规则挖掘方法进行处理.这种区间值数据挖掘方法与传统的数据挖掘方法相比较,更有实用价值.  相似文献   

13.
NPSP:一种高效的序列模式增量挖掘算法   总被引:4,自引:3,他引:1  
提出了一种称为“异构树”的数据结构,采用一套编号规则对异构树的分支进行编号,使具有相同编号的分支代表相同的候选序列,编号不同的分支代表不同的候选序列,极大地简化了候选集计数过程,在此基础上提出了具有增量挖掘功能的序列模式高效挖掘算法NPSP,并从理论分析和实验两方面证明了其挖掘结果集的完备性和算法的高效性.  相似文献   

14.
程序挖掘过程   总被引:1,自引:0,他引:1  
用户根据网络环境和资源条件选择不同功能集的程序来满足自己特点的需求,由此产生大规模分布式网络中的按需计算的问题。针对刻问题,提出了网络环境下进行程序挖掘的概念,定义了程序挖掘过程由构件目录库建立、用户需求输入、构件搜索与获取、构件分析选择、构件组装与程序校验几个步骤构成。并对其每个步骤的具体内容进行了研究。  相似文献   

15.
本文在现场实测的基础上,利用相似材料模拟实验方法,对厚煤层恒底开采和下行分层开采的矿压显现规律进行了对比研宄。研究结果表明:恒底开采第一分层时,由于顶煤易在采空区冒落,冒高较大,因此老顶来压时对采场的影响程度明显减小,这对于厚煤层坚硬顶板条件下的安全生产是十分有利的;恒底开采时,顶板裂隙扩展范围较小(裂隙带高度减小),并能减小顶板出现离层的高度,因此,有利于顶板含水层下(或地表水下)安全生产;恒底开采时,除最后一个分层外,各分层工作面的顶板均为煤体,因此可以减少煤炭含矸率,当煤层顶板较破碎时,其效果更明显  相似文献   

16.
分析数据挖掘与信息可视化之间的关系,介绍如何对关联分析和分类、聚类分析的结果进行可视化研究,探讨实现数据挖掘结果可视化的技术手段。  相似文献   

17.
数据挖掘与虚拟数据库   总被引:20,自引:0,他引:20  
给出了数据挖掘的概念及数据挖掘系统的分类,并基于Internet/Intranet数据挖掘给出了虚拟数据库技术的基本思想及实现  相似文献   

18.
本文基于现代控制理论和系统论的方法,提出了岩层与地表移动的参数识别理论,并以有限单元的线弹性模型为基础,根据实测的地表移动变形值,利用编制的岩层与地表移动的参数识剐有限元程序,解决了岩层与地表移动的参数识别问题。通过实例演算,得到当不给定参数约束时,其解是不唯一的;只有给定参数以一定的约束条件,方可辨识出唯一的岩体力学参数。  相似文献   

19.
长期以来,人们把地下开采引起地面破坏及其防护的研究工作局限于在平原地区。而对于在山体下开采所引起的地面破坏及其防护的研究没有给予充分的重视。本文根据一些在山体下开采引起地面破坏的实例,指出原有在平原地区所取得的研究成果已不适用于解决山体下开采的地面保护,因而提出开展山体下采煤的破坏及其防护研究的新观点。文章结合具体实例说明山体下开采引起地面破坏的特点,并提出了防护的措施。  相似文献   

20.
多数据库挖掘的研究   总被引:2,自引:2,他引:0  
多数据库技术的进步导致大量的多数据库系统的开发,为了决策的目的,许多跨国(省)公司急需挖掘他们那些分布在子公司的数据库,不过,现有的多数据库挖掘依然沿用单个数据库挖掘技术,即,首先将相关的数据库中的数据并入一个集合,然后挖掘这个集合,这会破坏一些有用的模型,像‘一个公司的70%子公司认为一个45-65的已婚顾客通常至少有3部车’,这种模型是有助于该公司的总体规划,另一方面,多数据库挖掘和单个数据库挖掘之间存在本质的不同,例如,多数据库挖掘考虑总公司和子公司的多层次应用,在这个报告中,设计了一个多数据库挖掘过程及可能遇到的问题,同时了简要地论证了多数据库挖掘的重要性,多数据库挖掘和单个数据库挖掘之间的不同之处,以及现有的多数据库挖掘技术的缺陷。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号