首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 46 毫秒
1.
针对序列模式挖掘中的增量挖掘问题,提出一种序列模式更新算法ISPBP.算法引入序列数据库结构来存储从原始数据库中挖掘出的所有项、最大频繁模式以及它们的支持数,采用间接拼接方法,只需处理增量数据库,避免了对更新后数据库的重新计算.对于因增量数据库新产生的频繁模式,利用了在增量数据库中出现的频繁项集来减小投影数据库,进一步提高了算法的效率.理论分析和实验表明,算法是有效可行的,并且增量数据库越大,算法在效率上的优越性越明显,算法ISPBP优于传统增量式更新算法.  相似文献   

2.
基于PrefixSpan的快速交互序列模式挖掘算法   总被引:3,自引:0,他引:3  
为了克服序列模式挖掘过程中重复运行挖掘算法而产生的时空消耗,提出了一个快速、简单而有效序列模式的交互式算法FISPM,利用前次挖掘得到的序列构造序列模式数据库用来存储挖掘出来的所有序列, 通过缩减本次挖掘所要构造投影数据库的频繁项的数量来减少构造投影数据库所需的时间以及投影数据库的大小,从而减少时间和空间消耗,提高挖掘效率.通过设置全局最小支持度来减少算法迭代次数. 实验结果证明在交互挖掘过程中FISPM效率优于PrefixSpan.  相似文献   

3.
研究了静态数据库当中挖掘压缩序列模式的问题,提出了一个压缩序列模式挖掘算法.该算法通过对闭序列模式全集进行划分处理,降低了序列的比对空间,并结合δ-dominant序列检测机制,有效的挖掘出了压缩序列模式集.实验表明,该算法具有较好的运行效率.  相似文献   

4.
序列模式挖掘是数据挖掘中最重要的研究课题之一.针对支持度置信度框架的GSP算法的产生的序列模式很多时候不是用户感兴趣的,有时甚至会产生误导这一问题,我们提出用统计学中的X^2测试来衡量序列模式的相关性.相关性使在项集上的计算是向上封闭的,这样就减少了我们在搜索相关和不相关的项集的边界过程中出现的问题.  相似文献   

5.
针对基于数据挖掘方法的病毒检测系统中计算量和内存消耗大的问题,分析病毒行为,研究序列挖掘技术,提出基于PrefixSpan算法的检测方法,并将其运用到基于序列挖掘的病毒检测系统中.实验结果表明:改进的病毒检测系统能节约大量资源,其检测病毒,尤其是未知病毒的准确率较高.  相似文献   

6.
频繁序列模式挖掘算法   总被引:5,自引:0,他引:5  
为解决从数据库中挖掘长模式和支持度较低时可能遇到计算复杂度较高的问题,提出一种新的算法--EFSPAN(Effective Frequent Sequential PAtterN mining algorithm).算法采用了深度优先挖掘策略,并将基于前缀序列格的深度优先遍历与两种高效的剪枝策略相结合.实验结果表明:新算法在模式较长和支持度较低时,能使搜索空间中60%以上的节点免被搜索;从而大大缩小了搜索空间,降低了序列模式挖掘算法的计算复杂度.  相似文献   

7.
快速频繁序列模式挖掘算法   总被引:4,自引:1,他引:3  
为解决从数据库中挖掘长模式可能遇到较高的计算复杂度问题, 提出一种新的算法FFSPAN. 传统上, 要判断一个序列是否频繁, 需要在原数据库中判断整个序列是否频繁; 而算法FFSPAN是通过在序列数据库中寻找一个频繁项或一个频繁项集来代替寻找一个完整的频繁序列, 而且FFSPAN算法每次扫描的数据库都是迅速减小的, 这使得算法在挖掘的序列模式越长时越有效. 在标准测试数据集上的实验结果表明, FFSPAN算法非常有效.  相似文献   

8.
序列模式挖掘是数据挖掘中最重要的研究课题之一。基于记录频繁集各元素的Ctid表的基础上,有研究者提出一种渐进式序列模式挖掘算法IMSP,目的是支持度保持不变,而数据库变化不大时,如何利用前次的结果和中间结果,以加速本次挖掘过程。笔者深入分析了算法IMSP结构,指出该算法在时间复杂度,挖掘规则的完备性上的不足,同时也指出利用该算法所可能得到的错误结果。  相似文献   

9.
序列模式的一种模型及其挖掘   总被引:4,自引:0,他引:4  
对已有的带时间约束的序列模式模型进行了仔细分析,提出了一种新的时间约束并给出了相应的挖掘算法。  相似文献   

10.
一种基于投影FP-growth的co-location模式挖掘算法   总被引:1,自引:1,他引:0  
空间co-location模式代表了一组空间属性的子集,它们的实例在地理空间中频繁地关联。针对如何利用关联规则挖掘算法来快速地挖掘co-location模式的问题,通过采用FP-CM算法与投影频繁模式树(PFP_tree)及其他技术相结合的方法,提出了一种基于投影FP-growth的co-location挖掘算法,简称PFP_CM算法。这个新算法主要对产生最大频繁模式的方法、模式过滤的方法、访问数据库的次数、避免大量的表实例连接操作的方法进行改进。最后通过大量的实验,验证了该算法的高效性和正确性,同时,将其用于对三江并流地区珍稀植物的共生物种进行挖掘。  相似文献   

11.
A Fast Interactive Sequential Pattern Mining Algorithm   总被引:3,自引:0,他引:3  
In order to reduce the computational and spatial complexity in rerunning algorithm of sequential patterns query, this paper proposes sequential patterns based and projection database based algorithm for fast interactive sequential patterns mining algorithm (FISP), in which the number of frequent items of the projection databases constructed by the correct mining which based on the previously mined sequences has been reduced. Furthermore, the algorithm's iterative running times are reduced greatly by using global-threshold. The results of experiments testify that FISP outperforms PrefixSpan in interactive mining  相似文献   

12.
序列模式挖掘是数据挖掘中的研究热点之一。在挖掘过程中需要用户的参与日益显得重要。为了提高挖掘过程中的交互性,本文提出了一个基于规则表达式约束的序列模式增量式挖掘算法RE_IncUp。该算法首先利用约束对已经挖掘出的频繁序列模式进行预处理,缩小了搜索范围;然后采用模式扩展方法把规则表达式约束和增量挖掘过程融为一体,并且采用先修剪后计算支持度的方法进一步缩小了搜索范围,降低了支持度的计算量。该算法允许用户不断改变约束条件,实现交互式挖掘而且可将挖掘的目标仅仅聚焦到用户感兴趣的模式上。实验表明该算法对序列模式的维护和满足用户的需求都是十分有效的。  相似文献   

13.
序列模式挖掘是在多个有序事件序列中查找出现频率大于某个阈值的序列模式的数据挖掘方法 ,自从1995年序列模式挖掘的概念被提出以来 ,人们不断地对序列模式挖掘算法进行研究和改进 .本文介绍了一种新的序列模式挖掘方法—CSE算法及其具体实现方法 ,并对该算法性能做了初步的评价 .  相似文献   

14.
序列模式挖掘是数据挖掘中一个非常活跃的研究主题.迄今为止,围绕算法效率这个主题,人们作了大量的工作.一方面,从算法的设计策略入手;另一方面在实现算法所采用的数据结构上做文章;也有的甚至通过对所挖掘的模式进行限制以达到提高算法效率的目的.并对目前已有的各种典型算法作了详细的分析与比较,而且做出了适当的评价.  相似文献   

15.
序列模式挖掘算法综述   总被引:1,自引:0,他引:1  
目前的主要序列模式挖掘算法可以分为3类:①基于Apriori的候选码生成-测试的方法;②基于垂直格式的候选码生成-测试的方法;③基于模式增长的方法.在介绍序列模式挖掘基本概念的基础上,描述了典型的挖掘算法,着重分析第②类序列模式挖掘算法的关键技术,并对各种算法进行详细的分析与比较,总结出它们的优缺点:前两类方法因产生巨大的候选序列而致挖掘代价剧增,而第③类模式增长方法避免了候选序列的产生,但挖掘长模式效率低.  相似文献   

16.
为了解决分布式环境下挖掘全局序列模式常产生过多候选序列,加大网络通信代价问题,提出了一种基于分布式环境下的快速挖掘全局序列模式算法--DMGSP.该算法将分布式环境下的各站点得到的局部序列模式压缩到一种语法序列树上, 避免了重复的序列前缀传输. 采用合并树中结点序列规则和项序扩展策略,对非频繁序列进行剪枝,有效地约简了候选序列,减少了网络传输量,从而快速生成全局序列模式.算法分析和实验结果表明,在大数据集环境下的DMGSP算法性能优越,能够有效地挖掘全局序列模式.  相似文献   

17.
为了减少无用候选序列的生成,并使挖掘得到的序列模式符合用户要求,约束条件下的频繁序列模式挖掘已成为数据挖掘领域的一个新的重要研究方向.作为强约束形式的一种,均值约束目前仍然是基于约束的频繁序列模式挖掘的一个困难问题,其主要原因在于很难利用均值约束来进行序列模式挖掘中的剪枝.为此,提出了一种基于均值约束满足度剪枝策略,并且以前缀增长方法为基础设计了一个有效的频繁序列模式挖掘算法.通过分析并实验验证了该算法的时间效率和剪枝性能,结果表明,该方法是有效的.  相似文献   

18.
介绍了一种时间序列模式的形式和概念,讨论了其相关的挖掘算法.将时间序列模式既用于具有时间关系的购买行为的分析,以揭示购买行为后面一种序列关系信息,又用于其他有时间关联的事件分析.挖掘算法由以下几部分构成建立频繁物品集,进行数据处理和转换,并生成候选子序列,通过验证后,得到长度为2,3,…的序列集合,从中选出独立最大序列即为所求.通过实例指出了该算法和传统的Aprioriall算法的不同之处.结果表明,这种序列模式在网络通信、气象分析等领域具有广阔的应用前景.  相似文献   

19.
分析了并行序列自身特色,提出了一种并行序列的挖掘算法PSMA,PSMA在hash树的基础上对并行序列事件反复挖掘,产生频繁有效序列模式,它是对传统序列模式挖掘算法的改进.PSMA算法针对并行序列,能更有效地发现所有频繁并行序列模式.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号