首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 0 毫秒
1.
介绍了一种时间序列模式的形式和概念,讨论了其相关的挖掘算法.将时间序列模式既用于具有时间关系的购买行为的分析,以揭示购买行为后面一种序列关系信息,又用于其他有时间关联的事件分析.挖掘算法由以下几部分构成建立频繁物品集,进行数据处理和转换,并生成候选子序列,通过验证后,得到长度为2,3,…的序列集合,从中选出独立最大序列即为所求.通过实例指出了该算法和传统的Aprioriall算法的不同之处.结果表明,这种序列模式在网络通信、气象分析等领域具有广阔的应用前景.  相似文献   

2.
序列模式的一种挖掘算法   总被引:5,自引:1,他引:5       下载免费PDF全文
序列模式挖掘是数据挖掘中最重要的研究课题之一。基于记录数据库频繁集中各元素CtiD表的基础上,提出了序列模式挖掘的一种算法ISP。该算法考虑了项目集与序列之间的关系,利用时序连接法,采用不同的构造法,构造出相对应的候选集,从而计算出频繁集。由于算法ISP能够利用中间的挖掘结果,故提高了挖掘过程的效率。  相似文献   

3.
为了实现对数据流的序列模式挖掘,提出了基于数据流的序列模式挖掘算法MFSDS-1和MFSDS-2,它们均通过调整入选度的大小来调整保存信息的粒度.算法MFSDS-2利用分层存储结构,不仅能更好地保存序列信息,而且可以通过与全局序列模式的对比得到当前活动的一些异常序列模式.实验结果表明,基于分层存储的算法MFSDS-2的效率比算法MSFDS-1高.  相似文献   

4.
在研究已有算法的基础上提出了一种频繁序列挖掘算法IDSG.该算法通过在频繁项(而不是频繁项集,即无需先求出所有频繁项集)间建立关联图,并在垂直数据库表达的基础上,借助简单的时态连接得到频繁序列完全集.整个过程只需扫描原始数据库两遍,有效减少磁盘I/O.另外,优化策略的正确运用,有助于减少候选序列的个数.分析及实验表明,较之同类算法,算法IDSG在效率上有了明显提高.  相似文献   

5.
针对光纤接入(fiber to the x,FTTx)网络规划中频繁路径挖掘问题,在经典算法FP-Growth,SPADE的基础上,结合格理论,利用频繁项集扩展枚举树作为搜索空间,并引入位图方便扩展运算和支持度计算,提出了一个改进的频繁序列挖掘算法FSM+。详细介绍了该算法的相关性质和基本理论,阐述了该算法的基本思想和实现伪码。在VC++6.0和单机的环境下,利用不同规模用户装机数据集和最小支持度比较了该算法与SPADE,FP-Growth算法的性能和准确性。实验证明,FSM+算法在小规模数据集下性能优势并不明显,但在大数据集下其计算性能分别是SPADE,FP-Growth的5倍和7倍多,挖掘结果与SPADE,FP-Growth算法相同。从而在实际网络规划过程中,快速计算信任度较高的频繁模式,并与人工经验干预相结合,来进一步保证预测路径准确有效。  相似文献   

6.
为了实现对数据流的序列模式挖掘,提出了基于数据流的序列模式挖掘算法MFSDS-1和MFSDS-2,它们均通过调整入选度的大小来调整保存信息的粒度.算法MFSDS-2利用分层存储结构,不仅能更好地保存序列信息,而且可以通过与全局序列模式的对比得到当前活动的一些异常序列模式.实验结果表明,基于分层存储的算法MFSDS-2的效率比算法MSFDS-1高.  相似文献   

7.
针对光纤接入(fiber to the x,FTTx)网络规划中频繁路径挖掘问题,在经典算法FP-Growth,SPADE的基础上,结合格理论,利用频繁项集扩展枚举树作为搜索空间,并引入位图方便扩展运算和支持度计算,提出了一个改进的频繁序列挖掘算法FSM+。详细介绍了该算法的相关性质和基本理论,阐述了该算法的基本思想和实现伪码。在VC++6.0和单机的环境下,利用不同规模用户装机数据集和最小支持度比较了该算法与SPADE,FP-Growth算法的性能和准确性。实验证明,FSM+算法在小规模数据集下性能优势并不明显,但在大数据集下其计算性能分别是SPADE,FP-Growth的5倍和7倍多,挖掘结果与SPADE,FP-Growth算法相同。从而在实际网络规划过程中,快速计算信任度较高的频繁模式,并与人工经验干预相结合,来进一步保证预测路径准确有效。  相似文献   

8.
生物序列相对于传统序列来说具有自己的特征。不同的序列模式挖掘算法应用到生物序列中有不同的特点和效率。本文分析目前比较流行的五种模式挖掘算法的运行过程,当应用到生物序列中时,分析了各个算法的性能,从而可以得出哪种算法更适应于不同类型的生物序列频繁模式挖掘。  相似文献   

9.
生物序列相对于传统序列来说具有自己的特征。不同的序列模式挖掘算法应用到生物序列中有不同的特点和效率。本文分析目前比较流行的五种模式挖掘算法的运行过程,当应用到生物序列中时,分析了各个算法的性能,从而可以得出哪种算法更适应于不同类型的生物序列频繁模式挖掘。  相似文献   

10.
序列模式挖掘是数据挖掘中最重要的研究课题之一。基于记录频繁集各元素的Ctid表的基础上,有研究者提出一种渐进式序列模式挖掘算法IMSP,目的是支持度保持不变,而数据库变化不大时,如何利用前次的结果和中间结果,以加速本次挖掘过程。笔者深入分析了算法IMSP结构,指出该算法在时间复杂度,挖掘规则的完备性上的不足,同时也指出利用该算法所可能得到的错误结果。  相似文献   

11.
对序列模式挖掘中的5种算法的执行过程和特点进行了研究,并对这几种算法的时间和空间执行效率进行了分析,指出这5种算法各自的使用范围,得出的结果对序列模式挖掘的应用具有一定的参考价值.  相似文献   

12.
针对序列模式挖掘中, 频繁子序列个数随模式长度增加而爆炸性增长的问题, 提出一种从序列数据库中挖掘最大频繁序列模式的新算法(MFSPAN). MFSPAN充分利用不同序列可能具有相同前缀的性质来减少项集比较次数. 在标准测试数据集上的实验结果表明了MFSPAN的有效性.  相似文献   

13.
NPSP:一种高效的序列模式增量挖掘算法   总被引:1,自引:3,他引:1  
提出了一种称为“异构树”的数据结构,采用一套编号规则对异构树的分支进行编号,使具有相同编号的分支代表相同的候选序列,编号不同的分支代表不同的候选序列,极大地简化了候选集计数过程,在此基础上提出了具有增量挖掘功能的序列模式高效挖掘算法NPSP,并从理论分析和实验两方面证明了其挖掘结果集的完备性和算法的高效性.  相似文献   

14.
为了解决分布式环境下挖掘全局序列模式常产生过多候选序列,加大网络通信代价问题,提出了一种基于分布式环境下的快速挖掘全局序列模式算法--DMGSP.该算法将分布式环境下的各站点得到的局部序列模式压缩到一种语法序列树上, 避免了重复的序列前缀传输. 采用合并树中结点序列规则和项序扩展策略,对非频繁序列进行剪枝,有效地约简了候选序列,减少了网络传输量,从而快速生成全局序列模式.算法分析和实验结果表明,在大数据集环境下的DMGSP算法性能优越,能够有效地挖掘全局序列模式.  相似文献   

15.
传统的频繁模式挖掘算法产出大量的频繁模式,这些大量的频繁模式对于后期的分析、处理以及理解都带来了相当大的挑战.针对上述问题,该文提出了一种改进的压缩频繁模式挖掘算法,该算法基于CFP-树通过对传统频繁模式挖掘算法的改进能够从大量的频繁模式中选择出规模更小的频繁模式代表集合,从而起到减小庞大的频繁模式挖掘结果规模的目的.实验中还将该算法和现有的RPlocal算法进行了对比,结果表明改进的压缩频繁模式挖掘算法能够在合理的时间及容错范围内获得更小的频繁模式代表集,同时大大降低了时间复杂度,提高了挖掘效率.  相似文献   

16.
数据流中一种有效的当前频繁序列挖掘方法   总被引:1,自引:0,他引:1  
给出了一种基于滑动窗口挖掘频繁序列算法。该算法给出了ε-近似序列集的定义,利用一种压缩的数据结构GSP-tree来存储和维护整个滑动窗口中各分区的近似序列集,并通过合并各分区的近似序列集来响应用户当前的查询请求。  相似文献   

17.
一种基于序列挖掘的分类系统框架   总被引:1,自引:0,他引:1  
为了有效地对序列数据进行分类,提出了一种集成分类挖掘和序列模式挖掘技术的分类系统框架(SPACS).先采用一套约束和裁减策略,为每个分类挖掘频繁序列模式,并将其转换为分类序列规则(CSR);再利用平均CSR匹配置信度和一个规则匹配算法构建有效的序列数据分类器.SPACS不需要在提取序列的特征后采用传统方法进行分类,可以直接利用从序列数据中提取出的频繁序列进行分类.实验结果表明,对于序列类型的数据的分类,SPACS比传统的决策树和关联分类方法具有更高的分类精度.  相似文献   

18.
频繁模式挖掘是数据挖掘领域中一个重要的研究方向,目前已有很多算法被用于挖掘频繁模式.本文在研究FP-growth算法的基础上,提出一种新的频繁模式挖掘算法——QFP算法.首先对每一个频繁项建立一棵QFP树,进而根据设定的条件对每棵树进行挖掘,直到找出符合条件的频繁模式.实验证明该算法能够减少条件子树的生成数量,降低对内存空间的依赖和CPU的计算时间,从而提高关联规则挖掘的效率.  相似文献   

19.
讨论了最大频繁序列模式和公平竞争层次模型(HFC),设计了最大频繁序列模式的挖掘算法(MFSPMA),把MFSPMA同HFC结合起来,提出了基于序列挖掘技术的分等级搜索可持续进化算法(SEAHSM).该进化算法设置多个不同层次的种群为不同适应度水平的个体提供生存空间,采用最大频繁子模式挖掘算法挖掘种群中的优良基因,并将具有优良基因模块的新个体注入到不同适应度水平的种群,从而实现遗传信息的稳定继承,有效避免优良基因的丢失.实验结果表明:SEAHSM在维持遗传信息稳定性、避免早熟收敛、提高搜索精度等方面表现良好.  相似文献   

20.
频繁序列模式挖掘算法   总被引:5,自引:0,他引:5  
为解决从数据库中挖掘长模式和支持度较低时可能遇到计算复杂度较高的问题,提出一种新的算法--EFSPAN(Effective Frequent Sequential PAtterN mining algorithm).算法采用了深度优先挖掘策略,并将基于前缀序列格的深度优先遍历与两种高效的剪枝策略相结合.实验结果表明:新算法在模式较长和支持度较低时,能使搜索空间中60%以上的节点免被搜索;从而大大缩小了搜索空间,降低了序列模式挖掘算法的计算复杂度.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号