首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 532 毫秒
1.
研究工作者已经提出了许多对事务数据库中频繁模式、关联规则的挖掘算法.早期算法有Apriori算法,然而该算法利用候选项集找频繁项集,而候选项集的产生往往是非常耗时的.JianweiHan等人提出了一种改进的算法,FP-growth算法.该算法不产生候选项集,效率比Apriori算法提高了近一个数量级.在描述FP-growth算法的基础上,具体讨论了如何优化数据结构,有效的实现该算法.  相似文献   

2.
识别所有频繁项集是Apriori算法的核心.结合偏好信息的思想,对关联规则中的Apriori算法进行改进,减少候选频繁集冗余,提高了算法效率,并对学生成绩进行挖掘分析,找到影响成绩的内在因素.  相似文献   

3.
介绍数据挖掘中关联规则的情况.在分析关联规则挖掘算法的基础上,对经典Apriori算法进行改进,改进算法意在通过减少生成候选频繁项集的数量和扫描数据库次数.从而,加快算法的执行效率和节省空间.  相似文献   

4.
针对关联规则挖掘中传统Apriori算法需要通过多次扫描数据库来发现频繁项集的问题,提出一种基于简单双矩阵的方法来实现频繁项集的发现.该方法仅需要扫描数据库一次,并充分利用项集的出现次数和是否出现逻辑值来获取频繁项集.实验表明,该方法比Apriori算法更高效.  相似文献   

5.
发现频繁项集是关联规则挖掘的关键步骤。然而,大多数频繁项集求解算法因需要产生大量候选集而降低了效率。该文在研究概念格和频繁项集关系的基础上,将剪枝概念格PCL模型引入数据库中频繁项集的表示,利用概念间的关系性质,在不丢失信息的同时能有效压缩频繁项集的规模,并提出基于PCL模型的频繁项集求解算法。该算法基于Apriori性质,在构造过程中及时、动态地剪枝,删除与频繁项集求解无关的概念,从而有效地改善了频集挖掘算法的时空性能;实验证实了算法良好的性能。  相似文献   

6.
频繁项集的挖掘效率是关联规则产生的关键.针对经典Apriori算法的瓶颈,提出一种改进算法,通过数组结构来保存项集信息,只须扫描一遍数据库减少了时间开销.在自连接前进行项目计数,减少参加连接的项集数量,减少了候选项集的数量.通过实例证明,改进算法的效率更高.  相似文献   

7.
针对Apriori算法在第二次迭代过程中产生大量候选集的弊端,在Spark大数据框架下,将Apriori算法进行并行化处理。提出一种基于Spark平台的改进Apriori算法——I-Apriori;该算法利用Spark基于内存计算的抽象对象(RDD)存储频繁项集,在第二次迭代中,通过使用改进的布隆过滤器存储频繁1项集,消除候选集生成,减少数据库扫描次数,提高算法效率。实验结果表明,相比基于Spark平台的Apriori算法进行性能评估,I-Apriori算法具有更优的性能,能够较大程度地提高大数据关联规则挖掘的效率。  相似文献   

8.
在现有的关联规则算法的基础上,深入分析了经典算法的内涵,提出了剪枝候选二项集的改进算法,有效的控制候选二项集的生成,得到传统算法中部分候选二项集,从而减少扫描数据库的运算量.与Apriori算法相比,效率明显提高.  相似文献   

9.
基于数组的关联规则算法的改进   总被引:1,自引:0,他引:1  
针对Apriori算法的不足,提出了基于数组的关联规则挖掘算法,该算法只扫描数据库一次,将数据库中的数据存于数组向量中。基于关联规则的性质,对扫描的事务数和项目数,连接步骤等进行压缩和优化,并且利用一维数组对候选2-项集进行计数,从而避免大量候选2项集的产生,有效解决了传统算法候选2项集的瓶颈问题,此算法与Apriori算法相比有明显的提高。  相似文献   

10.
阐述了关联规则挖掘对象事务数据库的特性, 对关联规则挖掘的关键问题频繁项集的几种挖掘方法:Apriori算法、最大频繁项集的挖掘算法、基于频繁链表的频繁项集挖掘算法作了分析研究,并指出了频繁项集挖掘算法优化的必要途径  相似文献   

11.
序列模式的性质研究   总被引:1,自引:0,他引:1  
序列模式挖掘是数据挖掘中一个重要研究方向,具有广泛的应用背景.序列模式挖掘会产生大量的模式,使得人们很难利用它们.提出上、下闭序列模式的概念,并得到上、下闭序列模式及其它们之间的若干性质,为解决序列模式的数量问题提供理论基础.  相似文献   

12.
传统的关联规则挖掘框架产生大量的规则,使得人们很难利用它们。本文主要针对项目集进行研究,提出了项目集的上、下闭集的概念,并得到了上、下闭集及其它们之间的一些性质,为解决规则数量问题提供了理论基础。  相似文献   

13.
数据挖掘技术在ERP内部数据仓库中的应用   总被引:2,自引:0,他引:2  
为解决ERP系统"数据爆炸但知识贫乏"的新问题,文章结合宁波MERRIE汽车公司的MR-ERP系统的实施和运行情况,开展从MR-ERP系统内部数据仓库挖掘数据的可行性研究和数据方法、流程探索,给出决策树挖掘算法检测数据挖掘模型.实验表明,这种数据挖掘是有效的.  相似文献   

14.
随着大量的XML数据的出现,给数据挖掘领域提出了新的挑战。传统数据挖掘算法是面向关系数据库和数据仓库的,不能直接用于XML文档的数据挖掘。本文从模糊集的基本理论入手,通过定义模糊概念软化属性论域的划分边界,提出了一种面向XML数据的模糊关联规则挖掘方法,并且使用Java语言实现,实验结果证明本文算法是正确的。  相似文献   

15.
模糊关联产生的大量候选数据项集使得在大型数据库中数据处理效率很低;提出基于本体的模糊关联规则挖掘系统;通过利用领域本体提高模糊关联规则挖掘效果,改变了挖掘算法,提出新规则.实验表明得到的新规则更有意义.  相似文献   

16.
新汶矿区在煤炭资源开采的同时,形成了大面积的沉陷区,并产生大量的煤矸石,通过技术可行性分析,得出利用煤矸石回填沉陷土地复土造田不会对农作物造成二次污染的结论.探讨了煤矸石回填塌陷区和采砂坑的设计方案,包括治理的方法、矸石回填的工作程序以及回填后复垦土地的利用.进行了经济效益分析,得出矸石回填沉陷土地复土造田不仅可以取得较好的生态效益,而且可获得可观的经济效益.  相似文献   

17.
 关联规则挖掘能使我们发现数据库中大量项目与项目之间的相关关系,但是用传统关联规则生成方法所生成的规则一是数量庞大,二是其中包含许多具有相同意义的规则,这必然对用户理解和提取信息带来干扰.通过求封闭项目集大大消减了频繁项目集数量,再由封闭项目集构造一种新的存储机制——-近似格,基于近似格可以得到冗余度较小的关联规则,从而提供用户简洁紧凑又无信息丢失的关联规则集.  相似文献   

18.
如何从各类数据仓库海量的数据中发现有用的知识是一个迫切需要研究的课题.因此,数据挖掘应运而生,成为一个全新的研究领域.而随着目前WWW的广泛应用及相应的Web技术的出现,也使数据挖掘的研究进入了一个新的阶段;综述了Web挖掘的主要技术及其实际应用.  相似文献   

19.
一种新的多级关联规则高效挖掘算法   总被引:1,自引:1,他引:1  
提出一种新的多级关联规则挖掘算法,该算法采用自中间开始并基于集合运算的方法来求频繁集,在求解过程中不需要建立复杂的hash树,并且避免了挖掘初期在每个模式中产生大量的支持事务集,从而减少了I/O操作,提高了挖掘的效率.  相似文献   

20.
Apriori算法是关联规则挖掘的经典算法,具有原理简洁、易编程实现等优点,得到广泛应用。针对该算法扫描数据库次数过多,产生大量冗余候选集的缺陷,在现有Apriori算法改进优化思想的基础上,结合矩阵、改进频繁模式树和计算候选集频数优化策略提出了一种改进的关联规则挖掘算法——MIFP-Apriori算法。实验表明,该算法能够将扫描数据库次数降低到一次,有效解决产生大量冗余候选集的缺陷,提高算法效率。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号