首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 203 毫秒
1.
研究不确定数据中的频繁闭项集挖掘,介绍不确定数据与概率频繁项集的概念,概率频繁闭项集挖掘的基本概念和概率频繁闭项集的挖掘算法,并分析该算法的性能.  相似文献   

2.
频繁项集挖掘是关联规则挖掘算法的核心,数据流的实时、无限及不可逆性给传统数据挖掘方法带来很大挑战.频繁闭项集挖掘为频繁项集挖掘提供了完整且低冗余的结果,是近年来数据流频繁项集挖掘研究的热点之一.介绍了数据流频繁闭项集挖掘的相关概念,并从搜索空间的遍历策略、误差结果控制方式等方面对数据流频繁闭项集挖掘算法进行了分析比较.  相似文献   

3.
王秉政 《科学技术与工程》2013,13(22):6476-6482
Generator项集是频繁项集的一种简洁表示形式,但当为数据项附以不同权值时,传统Generator定义和计算方法将不再有效;同时其具有的反单调性也不再成立;而此特性在现实应用中具有重要作用。提出以设计权重约束下的支持度计算方法为基础,重新定义加权Generator,调整加权Generator与频繁项集的计算关系,从而维持其反单调性。在加权支持度树结构的基础上,给出挖掘加权Generator的方法。实验表明,提出的方法能够使得权重较大的项被优先挖掘出来,并保证了Genera-tor的反单调性,提出的挖掘方法能够正确有效挖掘频繁加权Generator。  相似文献   

4.
针对海量数据的关联规则挖掘问题,提出了一种有效的基于等价类划分的并行频繁闭项集挖掘算法.该算法在MapReduce框架下,通过等价类的产生与划分、数据集的分配、异步频繁闭项集挖掘和汇总等步骤,不但较好地解决了多节点间的负载均衡问题,而且易于获得可靠的频繁闭项集.实验表明,该算法能有效克服传统算法挖掘效率低、冗余规则较多的缺点,整体上具有较高的性能.  相似文献   

5.
约束关联规则是数据挖掘的一个主要方向,可以根据用户给定的约束条件针对性的挖掘.目前大多数的研究都集中在约束频繁项集挖掘方面,很少进行序列模式的约束关联挖掘.本文把序列模式和约束进行结合,提出一种基于约束的序列模式关联规则挖掘算法.它同时处理两类约束:反单调性约束和单调性约束.可以根据约束条件挖掘数据间的因果关联关系.通过实验验证,该算法在运行效率上达到了较好效果.  相似文献   

6.
分布式数据库的精简频繁模式集及其挖掘算法   总被引:1,自引:0,他引:1  
对分布式数据库关联规则的挖掘与精简表示进行了研究,把频繁闭项集和最大频繁项集的概念推广到分布式数据库中,提出了在分布式环境下的频繁模式集的精简表示方法,以及一种基于各站点的全局大项目集的全局频繁闭项集和全局最大频繁项集的挖掘算法.该算法具有占用空间少、通信量小等特点.最后用实例进行了证明.  相似文献   

7.
针对大规模决策形式背景中决策规则的提取问题,提出了一种将频繁闭项集与决策形式背景相结合以提取无冗余决策规则的新算法.该算法结合了深度优先搜索的思想以及概念格中概念节点之间的父子关系,改进了概念格中频繁闭项集的挖掘算法,得到的频繁决策概念格实现了对一定规模的数据库的压缩,同时得到无冗余决策规则.算法分析表明,该算法复杂度较低,更适用于大规模数据集中挖掘无冗余决策规则.  相似文献   

8.
针对传统的关联规则算法挖掘效率低且产生的频繁项集庞大的缺陷,提出一种改进的基于直接频繁闭超项集理论的关联规则挖掘算法。该算法针对候选频繁闭项集具有快速检测闭合性和缩减查找范围的优势,有效地提高了挖掘效率。在冠心病诊断中的应用结果表明,该算法可有效地挖掘冠心病诊疗规则。  相似文献   

9.
给出三类约束,并讨论了约束的反单调性,实现了一种交互式的可约束的最小关联规则集挖掘算法,并分析了算法的优越性。  相似文献   

10.
一种不确定性数据中最大频繁项集挖掘方法   总被引:1,自引:0,他引:1  
不确定性数据挖掘已经成为数据挖掘领域的新热点,频繁项集挖掘是重点研究的问题之一.但是目前出现的挖掘算法大多集中在完全频繁项集,而用于最大频繁项集和频繁闭项集的算法尚不多见.文中研究了一种基于UF-Tree的用于不确定性数据中挖掘最大频繁项集的算法,该挖掘过程分为两个步骤,第一步先得到以频繁1-项集为后缀的局部最大频繁项集,第二步得到所有的全局最大频繁项集,实验证明该算法性能良好且特别适用于稠密型、事务长度较小的数据集.  相似文献   

11.
针对不确定数据频繁项集挖掘效率低和准确度不高的问题,提出了一种基于改进的频繁模式树(FPtree)和遗传算法(GA)挖掘不确定数据概率频繁项集的方法,即UFPGA(基于频繁模式树和遗传的挖掘算法).该算法根据不确定数据的构成特征,改进频繁模式树方法挖掘不确定数据频繁项集,采用缩小变异空间和增加育种算子的遗传算法搜索最大频繁项集,收缩了搜索范围,提高了挖掘效率.实验结果表明:该方法在时间复杂度方面有很好的优越性,对大规模的不确定数据挖掘提供了一种有效的技术手段.  相似文献   

12.
关联规则的挖掘往往会产生大量的关联规则,"规则爆炸"的问题会使用户很难得到自己所需要的重要信息.极大布尔关联规则集因其包含的规则数量少且不丢失规则信息的优点提高了用户分析关联规则结果的效率,且节省了规则存储空间.在分析频繁闭项集、频繁基项集和极大布尔关联规则性质的基础上提出了一种挖掘极大布尔关联规则的算法,利用此算法可以得到极大布尔关联规则集,还通过实例验证了算法的正确性.  相似文献   

13.
 针对现有拓扑关联规则挖掘算法不能够有效地提取长频繁约束拓扑关联规则,提出一种基于区间映射的约束拓扑关联规则挖掘算法,该算法适合挖掘带约束空间布局关系的长频繁拓扑关联规则;该算法用区间映射法的下行搜索策略产生候选频繁拓扑项目集,利用逻辑"与"运算计算拓扑关系事务的支持数.实验证明在挖掘长频繁约束拓扑项目集时,该算法比现有算法更快速更有效.  相似文献   

14.
不确定数据出现在越来越多的应用中,如WSN、RFID等领域,分析不确定数据能为用户决策提供重要参考,因此,不确定数据的数据挖掘工作受到越来越多的关注。不确定数据库的概率频繁模式挖掘是不确定数据挖掘的一个重要的研究内容,它是确定数据库中的频繁模式挖掘问题在不确定数据环境下的扩展研究,即挖掘在数据库中经常共同出现的模式。为了提高记录级不确定数据库的概率频繁模式的挖掘算法的效率,本文提出一种基于FP_Growth算法的概率频繁模式挖掘算法,并在不确定数据库上实验验证了算法的性能。  相似文献   

15.
随着交通、网络流量监控等应用的涌现,不确定数据流频繁项集挖掘成为近年来的研究热点。通常在不确定数据流中,频繁项集所占的比例较小,导致挖掘中无效操作较多。基于这种情况,提出了一种基于预裁剪的不确定数据流频繁项集挖掘算法Prep-UF-Streaming;该算法,不仅能裁剪掉大部分非频繁项集,提高了算法的平均运行时间;而且能够检测到非频繁项集成为频繁项集的可能性,尽量不丢失频繁项集,从而尽可能地提高算法的性能。  相似文献   

16.
发现约束最大频繁项目集是多种数据挖掘应用中的关键问题.目前已有许多算法可用于发现约束频繁项目集,而对约束最大频繁项目集的挖掘研究工作却很少.因此,需要设计一种高效的算法来挖掘出约束最大频繁项目集.为此,笔者提出了一种快速的约束最大频繁项目集的挖掘算法,并举例说明了该算法的执行过程.  相似文献   

17.
图数据的挖掘工作是数据挖掘工作中的重要组成部分,已经有许多人在这个领域进行了深入的研究.由于数据获取不可避免噪音数据,故在挖掘频繁图时考虑近似十分重要.然而许多此前的工作只考虑了子图间编辑距离(Graph Edit Distance,GED)的绝对值,而没有考虑子图间编辑距离与子图大小的相对关系.提出了一种在单图中进行近似频繁子图挖掘的新算法,并在计算近似程度时考虑当前子图的大小.该算法通过对近似频繁子图的大小上限进行预测,并通过局部反单调性进行剪枝,提高了算法的效率.实验表明,该算法能够挖掘出传统算法无法发现的近似频繁子图,且相比对比算法具有更好的时间性能.  相似文献   

18.
基于约束的最大频繁模式的挖掘   总被引:2,自引:0,他引:2  
频繁模式挖掘通常产生大量的挖掘结果,基于约束的最大模式挖掘成为目前研究的焦点.给出基于约束的频繁最大模式的定义和挖掘基于约束的频繁最大模式算法.  相似文献   

19.
采用频繁子图作为特征子图,对不确定图进行分类.提出AGF频繁子图挖掘算法,该算法将频繁子图挖掘问题转换为频繁项挖掘问题,可有效提高频繁子图生成效率.利用频繁子图构造分类模型,首次应用于不确定图,通过实验证明,给出的分类算法具有良好的分类正确率.  相似文献   

20.
为了减少无用候选序列的生成,并使挖掘得到的序列模式符合用户要求,约束条件下的频繁序列模式挖掘已成为数据挖掘领域的一个新的重要研究方向.作为强约束形式的一种,均值约束目前仍然是基于约束的频繁序列模式挖掘的一个困难问题,其主要原因在于很难利用均值约束来进行序列模式挖掘中的剪枝.为此,提出了一种基于均值约束满足度剪枝策略,并且以前缀增长方法为基础设计了一个有效的频繁序列模式挖掘算法.通过分析并实验验证了该算法的时间效率和剪枝性能,结果表明,该方法是有效的.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号