首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到17条相似文献,搜索用时 121 毫秒
1.
快速频繁序列模式挖掘算法   总被引:4,自引:1,他引:3  
为解决从数据库中挖掘长模式可能遇到较高的计算复杂度问题, 提出一种新的算法FFSPAN. 传统上, 要判断一个序列是否频繁, 需要在原数据库中判断整个序列是否频繁; 而算法FFSPAN是通过在序列数据库中寻找一个频繁项或一个频繁项集来代替寻找一个完整的频繁序列, 而且FFSPAN算法每次扫描的数据库都是迅速减小的, 这使得算法在挖掘的序列模式越长时越有效. 在标准测试数据集上的实验结果表明, FFSPAN算法非常有效.  相似文献   

2.
针对PrefixSpan算法在产生频繁序列模式(特别是挖掘密数据集和长序列模式)时会产生大量的投影数据库,使得算法性能下降的问题,提出一种基于投影位置的序列模式挖掘(PSPM)算法.该算法利用Apriori性质舍弃对非频繁项存储,节省了存储空间和扫描不可能出现序列的挖掘时间;在递归挖掘过程中,利用投影位置表直接定位投影序列位置进行挖掘局部频繁项,避免了构造投影数据库,从而提高执行效率.实验结果表明:与PrefixSpan(with pseudo-pro)算法相比,PSPM具有更好的执行效率和可伸缩性.  相似文献   

3.
为了解决分布式环境下挖掘全局序列模式常产生过多候选序列,加大网络通信代价问题,提出了一种基于分布式环境下的快速挖掘全局序列模式算法--DMGSP.该算法将分布式环境下的各站点得到的局部序列模式压缩到一种语法序列树上, 避免了重复的序列前缀传输. 采用合并树中结点序列规则和项序扩展策略,对非频繁序列进行剪枝,有效地约简了候选序列,减少了网络传输量,从而快速生成全局序列模式.算法分析和实验结果表明,在大数据集环境下的DMGSP算法性能优越,能够有效地挖掘全局序列模式.  相似文献   

4.
提出在匹配度模型下频繁序列模式精简基的概念,精简基由相对于一系列匹配度阈值的最大序列模式组成,它是频繁序列模式的一个子集,可以用它来估计任一频繁序列模式的匹配度,并能将误差控制在确定范围内.还开发了一个从有噪音的序列数据库中挖掘这种序列模式精简基的算法,该算法采用了一种不需要保留候选序列模式的方法来检查最大序列模式,采用的剪枝技术也比以前的算法更有效率.实验结果显示计算频繁序列模式精简基是很有前途的.  相似文献   

5.
序列模式的一种挖掘算法   总被引:6,自引:1,他引:5       下载免费PDF全文
序列模式挖掘是数据挖掘中最重要的研究课题之一。基于记录数据库频繁集中各元素CtiD表的基础上,提出了序列模式挖掘的一种算法ISP。该算法考虑了项目集与序列之间的关系,利用时序连接法,采用不同的构造法,构造出相对应的候选集,从而计算出频繁集。由于算法ISP能够利用中间的挖掘结果,故提高了挖掘过程的效率。  相似文献   

6.
结构关系模式挖掘是在序列模式挖掘基础上提出的一种新的数据挖掘任务,又叫做后序列模式挖掘。重复模式是结构关系模式重要形式之一。文中讨论了重复序列模式的概念,研究了重复序列的性质,给出了基于序列模式的、基于最大序列模式集的重复序列模式挖掘算法和基于最大序列模式集的最大重复序列模式挖掘。实验结果表明,算法是可行的。重复模式挖掘可以得到序列模式挖掘所得不到的结论,发现序列模式间存在的进一步的关系。  相似文献   

7.
分析了并行序列自身特色,提出了一种并行序列的挖掘算法PSMA,PSMA在hash树的基础上对并行序列事件反复挖掘,产生频繁有效序列模式,它是对传统序列模式挖掘算法的改进.PSMA算法针对并行序列,能更有效地发现所有频繁并行序列模式.  相似文献   

8.
研究了静态数据库当中挖掘压缩序列模式的问题,提出了一个压缩序列模式挖掘算法.该算法通过对闭序列模式全集进行划分处理,降低了序列的比对空间,并结合δ-dominant序列检测机制,有效的挖掘出了压缩序列模式集.实验表明,该算法具有较好的运行效率.  相似文献   

9.
为了减少无用候选序列的生成,并使挖掘得到的序列模式符合用户要求,约束条件下的频繁序列模式挖掘已成为数据挖掘领域的一个新的重要研究方向.作为强约束形式的一种,均值约束目前仍然是基于约束的频繁序列模式挖掘的一个困难问题,其主要原因在于很难利用均值约束来进行序列模式挖掘中的剪枝.为此,提出了一种基于均值约束满足度剪枝策略,并且以前缀增长方法为基础设计了一个有效的频繁序列模式挖掘算法.通过分析并实验验证了该算法的时间效率和剪枝性能,结果表明,该方法是有效的.  相似文献   

10.
时间序列记录的是某一统计量按照时间推移而发生变化的数据,寻找合理的挖掘算法解决时间序列问题具有很强的现实意义.提出一种保序序列挖掘方法,通过子模式匹配结果挖掘(read the sub-pattern matching for mining,RSMM)算法,挖掘时间序列中频繁出现的趋势变化,在计算支持度时根据子模式的匹...  相似文献   

11.
通过前缀序列的引入,将搜索空间划分为若干个子空间,利用模式增量技术对序贯模式进行有效搜索,并提出了项目位置索引的概念,即将原始序列数据库信息转换到项目位置索引(IPI)中,从而在搜索序贯模式时避免了复杂的多维候选序列的测试,仅需对各前缀序列对应的扩展的项目位置索引库(IPIDBs)做简单的序列数目累加操作,将复杂的高维序贯模式搜索问题巧妙地转换为一维频繁项目的搜索,降低了算法复杂度,提高了效率。  相似文献   

12.
针对Apriori(All/Some)算法在挖掘前对数据进行编码和转换所导致的挖掘复杂化,以及不能够处理某些特殊情况的问题,提出一个改进的Apriori(All/Some)算法.改进的算法保留原始数据,省掉编码和转换工作,直接求出全部的以任意频数出现的基调,有效地处理了Apriori(All/Some)算法中存在的问题.  相似文献   

13.
一种基于序列挖掘的分类系统框架   总被引:1,自引:0,他引:1  
为了有效地对序列数据进行分类,提出了一种集成分类挖掘和序列模式挖掘技术的分类系统框架(SPACS).先采用一套约束和裁减策略,为每个分类挖掘频繁序列模式,并将其转换为分类序列规则(CSR);再利用平均CSR匹配置信度和一个规则匹配算法构建有效的序列数据分类器.SPACS不需要在提取序列的特征后采用传统方法进行分类,可以直接利用从序列数据中提取出的频繁序列进行分类.实验结果表明,对于序列类型的数据的分类,SPACS比传统的决策树和关联分类方法具有更高的分类精度.  相似文献   

14.
在分析了频繁序列模式更新算法关键技术的基础上,提出了一种快速的增量式更新频繁序列模式挖掘算法FUFSPA,该算法将充分利用先前挖掘过程中所产生的信息来减少本次挖掘过程中的时闻开销.另外,针对频繁序列模式挖掘中支持数计算的复杂性,提出了一种基于二进制形式的支持数计算方法,该方法只需进行一些“或”逻辑运算操作,将该方法用于序列模式挖掘中支持度(数)的计算,可以进一步提高算法的执行效率.实验结果表明算法FUFSPA是可行和有效的.  相似文献   

15.
讨论了最大频繁序列模式和公平竞争层次模型(HFC),设计了最大频繁序列模式的挖掘算法(MFSPMA),把MFSPMA同HFC结合起来,提出了基于序列挖掘技术的分等级搜索可持续进化算法(SEAHSM).该进化算法设置多个不同层次的种群为不同适应度水平的个体提供生存空间,采用最大频繁子模式挖掘算法挖掘种群中的优良基因,并将具有优良基因模块的新个体注入到不同适应度水平的种群,从而实现遗传信息的稳定继承,有效避免优良基因的丢失.实验结果表明:SEAHSM在维持遗传信息稳定性、避免早熟收敛、提高搜索精度等方面表现良好.  相似文献   

16.
序列模式挖掘是在多个有序事件序列中查找出现频率大于某个阈值的序列模式的数据挖掘方法 ,自从1995年序列模式挖掘的概念被提出以来 ,人们不断地对序列模式挖掘算法进行研究和改进 .本文介绍了一种新的序列模式挖掘方法—CSE算法及其具体实现方法 ,并对该算法性能做了初步的评价 .  相似文献   

17.
提出一种快速挖掘邻近序列模式的RCSP算法。该算法只需扫描一次数据库,且通过建立前序链接编码树,借助结点的区间编码,可以在常数时间内确定序列在树中的不同映射片段之间的祖孙关系,实现序列支持数的快速计算,不必额外创建中间树,直接在树上进行挖掘,就能得到所有邻近序列模式。实验表明RCSP算法具有较好的性能。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号