首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到18条相似文献,搜索用时 141 毫秒
1.
以Apriori算法为例介绍并分析了挖掘最大频繁项集的过程。针对数据流的特点,对数据流中频繁模式挖掘问题进行了研究,提出了一种基于数据流频繁项集挖掘的新的EC算法。  相似文献   

2.
利用频繁模式表的线性表简单结构及闭频繁项集挖掘的优点,提出了一种闭频繁项集挖掘算法.模式签名向量间的合取操作以及向量计数操作为该算法的主要操作,实现从已生成的闭频繁项集生成集中抽取代表模式,降低了模式搜索空间,简化了生成闭频繁项集的过程,实验结果验证了该算法的有效性.  相似文献   

3.
随着交通、网络流量监控等应用的涌现,不确定数据流频繁项集挖掘成为近年来的研究热点。通常在不确定数据流中,频繁项集所占的比例较小,导致挖掘中无效操作较多。基于这种情况,提出了一种基于预裁剪的不确定数据流频繁项集挖掘算法Prep-UF-Streaming;该算法,不仅能裁剪掉大部分非频繁项集,提高了算法的平均运行时间;而且能够检测到非频繁项集成为频繁项集的可能性,尽量不丢失频繁项集,从而尽可能地提高算法的性能。  相似文献   

4.
针对数据流的无限性和流动性特点,提出了一种基于前缀树的数据流频繁模式挖掘算法(Prefix-stream).该算法将对数倾斜时间窗口划分为若干个子窗口,以子窗口为单位,利用提出的数据结构Prefix-tree进行挖掘,在整个数据流的频繁模式挖掘中,使得频繁模式挖掘和更新能在Prefix-tree中同时进行.该算法应用对数倾斜时间窗口逐步降低历史事务的权重,从而区分最近事务与历史事务.实验结果表明Prefix-stream具有较高的效率与较好的可扩展性.  相似文献   

5.
由于能反映用户的偏好,可以弥补传统频繁项集挖掘仅由支持度来衡量项集重要性的不足,高效用项集正在成为当前数据挖掘研究的热点.为使高效用项集挖掘更好地适应数据流环境,提出了一种基于事务型滑动窗口的数据流中高效用项集挖掘算法MHUIDS.首先在二进制向量的基础上,提出了高事务加权效用项集树(HTWUI-树)的结构.进而分别给出了事务型滑动窗口初始化与滑动的算法描述.最后,提出了高效用项集的剪枝策略与挖掘算法.实验结果表明,MHUIDS算法具有较高的挖掘效率及较低的存储开销.  相似文献   

6.
频繁项集挖掘是关联规则挖掘算法的核心,数据流的实时、无限及不可逆性给传统数据挖掘方法带来很大挑战.频繁闭项集挖掘为频繁项集挖掘提供了完整且低冗余的结果,是近年来数据流频繁项集挖掘研究的热点之一.介绍了数据流频繁闭项集挖掘的相关概念,并从搜索空间的遍历策略、误差结果控制方式等方面对数据流频繁闭项集挖掘算法进行了分析比较.  相似文献   

7.
张长胜 《科学技术与工程》2013,13(23):6739-6745
提出一个数据流环境下的基于概念格和滑动窗口的频繁项集挖掘算法DSFMCL。算法在滑动窗口内分批挖掘新流入的基本窗口频繁概念后,生成概念格的Hasse图。引入最小支持度ζ和误差因子ε对非频繁概念节点进行剪枝操作。Hasse图中各节点包含频繁项集及其支持度信息。随着新基本窗口的Hasse图的生成与滑动窗口进行概念格纵向合并,最终通过对全部Hasse图节点的扫描可以输出所有频繁项集。实验结果表明,该算法具有良好的性能。  相似文献   

8.
许颖梅 《河南科学》2012,(3):348-351
入侵检测技术是网络安全中的核心技术,把数据流中频繁项集的挖掘应用于入侵检测系统中正常和异常数据分析已是当前网络安全中的一个重要发展方向.流入网络流中的数据高速并且无限到达,所以利用传统多遍扫描数据库的挖掘技术来构建入侵检测模型已受到局限.针对频繁模式多维的特点,提出了一种新型数据结构SW.Tree,并给出了一种高效的挖掘网络访问数据流的挖掘算法,把这种算法应用于网络入侵检测模型中频繁模式的挖掘,取得了较好的成效.  相似文献   

9.
针对数据流的特点,提出利用函数迭代运算的方法来提取数据流中的频繁项集的挖掘方法.整个挖掘过程只需扫描数据流一次,不产生频繁候选集.算法的时间复杂度是比较低的.实验仿真结果也验证了该挖掘方法是有效的和可行的.  相似文献   

10.
通过指定期望结果项集数量挖掘top-k频繁项集,可解决频繁项集挖掘中支持度阈值难以设定的问题.由于能在较短的时间内得到足够多的精确结果,因此利用启发式方法挖掘项集的工作受到了越来越多的关注,但利用启发式方法来挖掘top-k频繁项集却鲜有研究.提出了一种基于交叉熵的top-k频繁项集挖掘算法KCE.首先,给出了将交叉熵应...  相似文献   

11.
挖掘频繁闭项目集是数据挖掘领域中的一个重要研究方向,人们已提出了许多用于高效地发现大规模数据库中频繁闭项目集的算法,但对其更新维护问题的研究却比较少.在分析了频繁闭项目集更新算法关键技术的基础上,提出一种快速的增量式频繁闭项目集更新算法FUFCIA(fastupdating frquent closed itemsets algorithm),该算法将充分利用先前挖掘过程中所产生的信息来节省发现新的频繁闭项目集的时间开销,降低了候选频繁闭项目集的规模,减少了扫描数据库的次数.最后对该算法进行分析和讨论,并进行试验验证,试验结果表明算法FUFCIA是有效的.  相似文献   

12.
基于数据挖掘的网络业务流分析方法   总被引:1,自引:0,他引:1  
为了从业务角度对网络的性能进行评价和优化,提出了一种新的网络业务分析方法——具有时态路径约束的关联规则挖掘分析方法.该方法以网络业务为分析粒度,以与网络业务流相关的时态属性和路径属性为约束条件,对已经积累的反映网络状况的海量历史数据进行挖掘分析.在进行关联规则挖掘时,利用频繁数据项集的性质,通过引入事务标号,在求出候选频繁项集的同时也求出其支持度,避免了为求支持度而进行的扫描数据库运算,极大提高了挖掘的效率和速度.实验结果表明,进行挖掘分析的数据量越大,该方法的性能和效率就越好.  相似文献   

13.
在经典的频繁闭合项集挖掘算法中,如Closet与Closet+,当条件模式数据库很庞大时,频繁项集的数目将会急剧增长,算法的效率会逐步恶化,并且算法挖掘结果的有效性也随着大量冗余模式的产生而下降.本文首先针对传统的FP-tree的算法,给出了一种改进的FP—tree算法,然后在新算法的基础上,提出新的频繁闭合项集挖掘算法,该算法只需把FP-Tree中所有由叶子结点到根结点的路径遍历一遍,就可以得到各项的所有子条件模式基,避免了传统FP-tree算法在同一条路径上向前回溯比较的繁琐.实验表明优化后的算法避免了资源的耗费,减少了频繁闭合项集挖掘的运算开销,大大提高了数据挖掘的效率.  相似文献   

14.
针对海量数据的关联规则挖掘问题,提出了一种有效的基于等价类划分的并行频繁闭项集挖掘算法.该算法在MapReduce框架下,通过等价类的产生与划分、数据集的分配、异步频繁闭项集挖掘和汇总等步骤,不但较好地解决了多节点间的负载均衡问题,而且易于获得可靠的频繁闭项集.实验表明,该算法能有效克服传统算法挖掘效率低、冗余规则较多的缺点,整体上具有较高的性能.  相似文献   

15.
基于数据流挖掘技术的入侵检测模型与算法   总被引:1,自引:0,他引:1  
针对目前基于数据流关联规则挖掘技术的入侵检测系统响应速度不够快和检测精度不够高的问题,提出一个基于数据流最大频繁模式的入侵检测系统模型MMFIID-DS;设计各种剪枝策略,挖掘经过训练学习后的正常数据集、异常数据集和当前检测数据流的最大频繁项集,建立系统的正常行为模式、异常行为模式和用户行为模式,达到极大缩小搜索空间的目的,提高系统的响应速度;结合误用检测和异常检测2种入侵检测方法进行实时在线检测入侵,提高系统的检测精度。理论与实验结果表明:MMFIID-DS入侵检测系统具有较好的性能。  相似文献   

16.
设计了一种不同于传统关联规则挖掘算法(如Apriori算法等)频繁项集产生算法.该算法借鉴一般免疫算法思想,并从新的角度来看频繁项集的定义,避免了传统算法中存在的"项集生成瓶颈"问题.通过对mushroom数据的频繁项集挖掘的实验,与传统方法进行了比较,其结果表明,基于免疫算法的频繁项集挖掘算法在大数据集、低支持度情况下平均挖掘时间短.  相似文献   

17.
基于数据流的频繁集挖掘   总被引:2,自引:0,他引:2  
针对数据流特殊的数据类型,提出了一种新的数据流挖掘算法.该算法引入了一个全新的优化方法,将边界集和频繁产生集结合起来.频繁产生集是频繁集的一种无损简缩表达方式.它所包含的模式数量比频繁集所包含的模式数量小若干数量级.边界集是频繁产生模式和其他模式之间的边界,通过观察边界集的变化可以生成新的频繁产生模式.实验结果表明,该算法的性能有明显的提高.  相似文献   

18.
针对传统的关联规则算法挖掘效率低且产生的频繁项集庞大的缺陷,提出一种改进的基于直接频繁闭超项集理论的关联规则挖掘算法。该算法针对候选频繁闭项集具有快速检测闭合性和缩减查找范围的优势,有效地提高了挖掘效率。在冠心病诊断中的应用结果表明,该算法可有效地挖掘冠心病诊疗规则。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号