首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 156 毫秒
1.
为了实现对数据流的序列模式挖掘,提出了基于数据流的序列模式挖掘算法MFSDS-1和MFSDS-2,它们均通过调整入选度的大小来调整保存信息的粒度.算法MFSDS-2利用分层存储结构,不仅能更好地保存序列信息,而且可以通过与全局序列模式的对比得到当前活动的一些异常序列模式.实验结果表明,基于分层存储的算法MFSDS-2的效率比算法MSFDS-1高.  相似文献   

2.
Web序列模式挖掘是将数据挖掘技术应用于Web访问序列,通过对Web访问序列的模式挖掘可以发现用户与网站交互的频繁模式,利用这些模式可以建模并分析用户与网站交互的模型,进而预测未来的访问模式,这对于构建智能化Web站点和开展电子商务活动有非常重要的意义.介绍了传统的PLWAP(position coded preorder linked WAPtree)算法,并在此基础上提出了一种对PLWAP算法中Header table的新的构建方法的改进算法(NPLWAP).在NPL-WAP算法中Header table的构建过程中每一步都只基于当前处理的节点的后缀树集,且Header table并不存储所有的后缀树集节点,而是只存储后缀树集根节点,从而减少挖掘过程的相关判断.通过对真实数据的实验对比可以看出NPLWAP算法在运行时间上比传统的PLWAP算法有了很大的改进.  相似文献   

3.
基于PrefixSpan的快速交互序列模式挖掘算法   总被引:3,自引:0,他引:3  
为了克服序列模式挖掘过程中重复运行挖掘算法而产生的时空消耗,提出了一个快速、简单而有效序列模式的交互式算法FISPM,利用前次挖掘得到的序列构造序列模式数据库用来存储挖掘出来的所有序列, 通过缩减本次挖掘所要构造投影数据库的频繁项的数量来减少构造投影数据库所需的时间以及投影数据库的大小,从而减少时间和空间消耗,提高挖掘效率.通过设置全局最小支持度来减少算法迭代次数. 实验结果证明在交互挖掘过程中FISPM效率优于PrefixSpan.  相似文献   

4.
一种基于可变滑动窗口的数据流分段聚类算法   总被引:2,自引:2,他引:0  
数据流的应用越来越广泛,数据流挖掘成为数据挖掘的重点研究方向之一。在分析各种数据流聚类算法的基础上,提出了一种基于可变滑动窗口的数据流分段聚类算法。算法以时间序列数据流模式表示技术为参考,以去除噪音和压缩数据为目的,实现了数据流的特征提取和概要存储。实验表明,算法具有低时空复杂度、自适应等特点。  相似文献   

5.
引入项的半垂直比特向量结构,提出挖掘数据流邻近序列模式的MCSP-TSW算法.通过改进比特向量组结构和引入两个剪枝策略,提出改进的MCSP-TSW-Imp算法来减少判断一个候选序列是否频繁的时间.实验表明,两种算法空间消耗相当,但MCSP-TSW-Imp算法比MCSP-TSW算法具有较高的时间效率.  相似文献   

6.
针对PrefixSpan算法在产生频繁序列模式(特别是挖掘密数据集和长序列模式)时会产生大量的投影数据库,使得算法性能下降的问题,提出一种基于投影位置的序列模式挖掘(PSPM)算法.该算法利用Apriori性质舍弃对非频繁项存储,节省了存储空间和扫描不可能出现序列的挖掘时间;在递归挖掘过程中,利用投影位置表直接定位投影序列位置进行挖掘局部频繁项,避免了构造投影数据库,从而提高执行效率.实验结果表明:与PrefixSpan(with pseudo-pro)算法相比,PSPM具有更好的执行效率和可伸缩性.  相似文献   

7.
本文介绍了两种主要的序列模式挖掘方法,在已有二进制算法的基础上提出了一种基于二维数组与二进制形式的频繁序列的计算方法.该方法通过二维数组实现事务数据库的存储,利用 "或"、"与"、"异或"等逻辑运算计算序列的支持度计数和确定频繁序列模式,减少了数据库的扫描次数,降低了算法实现的难度,提高了挖掘效率,具有较好的创新性和理论价值.  相似文献   

8.
结构关系模式挖掘是在序列模式挖掘基础上提出的一种新的数据挖掘任务,又叫做后序列模式挖掘。重复模式是结构关系模式重要形式之一。文中讨论了重复序列模式的概念,研究了重复序列的性质,给出了基于序列模式的、基于最大序列模式集的重复序列模式挖掘算法和基于最大序列模式集的最大重复序列模式挖掘。实验结果表明,算法是可行的。重复模式挖掘可以得到序列模式挖掘所得不到的结论,发现序列模式间存在的进一步的关系。  相似文献   

9.
在挖掘关联规则和序列模式过程中,用户往往需要多次调整最小支持度,才能获得有趣的关联规则和序列模式.现给出基于已存信息的知识发现更新方法———PSI算法和大PSI-seq算法,以提高挖掘知识的效率.  相似文献   

10.
为了减少无用候选序列的生成,并使挖掘得到的序列模式符合用户要求,约束条件下的频繁序列模式挖掘已成为数据挖掘领域的一个新的重要研究方向.作为强约束形式的一种,均值约束目前仍然是基于约束的频繁序列模式挖掘的一个困难问题,其主要原因在于很难利用均值约束来进行序列模式挖掘中的剪枝.为此,提出了一种基于均值约束满足度剪枝策略,并且以前缀增长方法为基础设计了一个有效的频繁序列模式挖掘算法.通过分析并实验验证了该算法的时间效率和剪枝性能,结果表明,该方法是有效的.  相似文献   

11.
基于动态API序列挖掘的恶意代码检测方法未考虑不同类别恶意代码之间的行为差别,导致代表恶意行为的恶意序列挖掘效果不佳,其恶意代码检测效率较低.本文引入面向目标的关联挖掘技术,提出一种最长频繁序列挖掘算法,挖掘最长频繁序列作为特征用于恶意代码检测.首先,该方法提取样本文件的动态API序列并进行预处理;然后,使用最长频繁序列挖掘算法挖掘多个类别的最长频繁序列集合;最后,使用挖掘的最长频繁序列集合构造词袋模型,根据该词袋模型将样本文件的动态API序列转化为向量,使用随机森林算法构造分类器检测恶意代码.本文采用阿里云提供的数据集进行实验,恶意代码检测的准确率和AUC(Area Under Curve)值分别达到了95.6%和0.99,结果表明,本文所提出的方法能有效地检测恶意代码.  相似文献   

12.
采用填充字符的频繁序列模式挖掘算法   总被引:1,自引:0,他引:1  
具有固定通配符间隔的频繁序列模式挖掘算法应具有删属性,从而保证在实际应用中能挖掘出有意义的长模式.而原有的问题定义集合存在一定的不足阻碍了该属性的实现.通过引入填充字符改变部分问题定义,解决原定义引起的一些极端性问题,并在模式挖掘过程中保证了完整性和有效性.将基于新定义集合提出的硒孙l算法与基于原定义集合的MMP算法分别在DNA序列上进行实验,结果表明算法实现了Apfiofi属性.  相似文献   

13.
生物序列相对于传统序列来说具有自己的特征。不同的序列模式挖掘算法应用到生物序列中有不同的特点和效率。本文分析目前比较流行的五种模式挖掘算法的运行过程,当应用到生物序列中时,分析了各个算法的性能,从而可以得出哪种算法更适应于不同类型的生物序列频繁模式挖掘。  相似文献   

14.
生物序列相对于传统序列来说具有自己的特征。不同的序列模式挖掘算法应用到生物序列中有不同的特点和效率。本文分析目前比较流行的五种模式挖掘算法的运行过程,当应用到生物序列中时,分析了各个算法的性能,从而可以得出哪种算法更适应于不同类型的生物序列频繁模式挖掘。  相似文献   

15.
一种基于序列挖掘的分类系统框架   总被引:1,自引:0,他引:1  
为了有效地对序列数据进行分类,提出了一种集成分类挖掘和序列模式挖掘技术的分类系统框架(SPACS).先采用一套约束和裁减策略,为每个分类挖掘频繁序列模式,并将其转换为分类序列规则(CSR);再利用平均CSR匹配置信度和一个规则匹配算法构建有效的序列数据分类器.SPACS不需要在提取序列的特征后采用传统方法进行分类,可以直接利用从序列数据中提取出的频繁序列进行分类.实验结果表明,对于序列类型的数据的分类,SPACS比传统的决策树和关联分类方法具有更高的分类精度.  相似文献   

16.
一个基于时间窗口的入侵检测算法   总被引:1,自引:0,他引:1  
入侵检测是计算机安全机制的一个重要组成部分 ,由于它需要从大量的系统审计数据中进行准确、高效的分析 ,因而适宜用数据挖掘的方法来发现规则 .本文给出了一个基于时间窗口的数据挖掘算法来发现入侵行为 ,在文章末对算法的优缺点进行了讨论  相似文献   

17.
【目的】研究模式挖掘领域中的频繁序列挖掘技术,由于序列模式挖掘存在指数级的搜索空间,且传统的SAT求解算法无法高效求解大规模数据集的缺点,因此研究符号表示和操作技术,用来避免冗余计算。【方法】提出基于SAT的频繁序列挖掘的符号OBDD算法,基于深度优先算法的思想,首先将频繁序列挖掘问题构建为SAT模型,其次对变量进行排序并将约束子句分类后分别描述为OBDD,利用OBDD的"与"操作得到满足SAT的所有频繁序列模式。【结果】实例结果表明,该方法准确可行。【结论】该方法能有效缩减搜索空间,提高求解效率。  相似文献   

18.
NPSP:一种高效的序列模式增量挖掘算法   总被引:4,自引:3,他引:1  
提出了一种称为“异构树”的数据结构,采用一套编号规则对异构树的分支进行编号,使具有相同编号的分支代表相同的候选序列,编号不同的分支代表不同的候选序列,极大地简化了候选集计数过程,在此基础上提出了具有增量挖掘功能的序列模式高效挖掘算法NPSP,并从理论分析和实验两方面证明了其挖掘结果集的完备性和算法的高效性.  相似文献   

19.
针对股票数据给出了一种符号化方法,并提出了一种利用互关联后继树和统计线索树挖掘紧密连续频繁序列算法,对符号化后的序列进行挖掘,证明了该算法是高效的、正确的.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号