首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 187 毫秒
1.
分析了并行序列自身特色,提出了一种并行序列的挖掘算法PSMA,PSMA在hash树的基础上对并行序列事件反复挖掘,产生频繁有效序列模式,它是对传统序列模式挖掘算法的改进.PSMA算法针对并行序列,能更有效地发现所有频繁并行序列模式.  相似文献   

2.
【目的】研究模式挖掘领域中的频繁序列挖掘技术,由于序列模式挖掘存在指数级的搜索空间,且传统的SAT求解算法无法高效求解大规模数据集的缺点,因此研究符号表示和操作技术,用来避免冗余计算。【方法】提出基于SAT的频繁序列挖掘的符号OBDD算法,基于深度优先算法的思想,首先将频繁序列挖掘问题构建为SAT模型,其次对变量进行排序并将约束子句分类后分别描述为OBDD,利用OBDD的"与"操作得到满足SAT的所有频繁序列模式。【结果】实例结果表明,该方法准确可行。【结论】该方法能有效缩减搜索空间,提高求解效率。  相似文献   

3.
针对PrefixSpan算法在产生频繁序列模式(特别是挖掘密数据集和长序列模式)时会产生大量的投影数据库,使得算法性能下降的问题,提出一种基于投影位置的序列模式挖掘(PSPM)算法.该算法利用Apriori性质舍弃对非频繁项存储,节省了存储空间和扫描不可能出现序列的挖掘时间;在递归挖掘过程中,利用投影位置表直接定位投影序列位置进行挖掘局部频繁项,避免了构造投影数据库,从而提高执行效率.实验结果表明:与PrefixSpan(with pseudo-pro)算法相比,PSPM具有更好的执行效率和可伸缩性.  相似文献   

4.
基于动态API序列挖掘的恶意代码检测方法未考虑不同类别恶意代码之间的行为差别,导致代表恶意行为的恶意序列挖掘效果不佳,其恶意代码检测效率较低.本文引入面向目标的关联挖掘技术,提出一种最长频繁序列挖掘算法,挖掘最长频繁序列作为特征用于恶意代码检测.首先,该方法提取样本文件的动态API序列并进行预处理;然后,使用最长频繁序列挖掘算法挖掘多个类别的最长频繁序列集合;最后,使用挖掘的最长频繁序列集合构造词袋模型,根据该词袋模型将样本文件的动态API序列转化为向量,使用随机森林算法构造分类器检测恶意代码.本文采用阿里云提供的数据集进行实验,恶意代码检测的准确率和AUC(Area Under Curve)值分别达到了95.6%和0.99,结果表明,本文所提出的方法能有效地检测恶意代码.  相似文献   

5.
序列模式挖掘是数据挖掘中的研究热点之一。在挖掘过程中需要用户的参与日益显得重要。为了提高挖掘过程中的交互性,本文提出了一个基于规则表达式约束的序列模式增量式挖掘算法RE_IncUp。该算法首先利用约束对已经挖掘出的频繁序列模式进行预处理,缩小了搜索范围;然后采用模式扩展方法把规则表达式约束和增量挖掘过程融为一体,并且采用先修剪后计算支持度的方法进一步缩小了搜索范围,降低了支持度的计算量。该算法允许用户不断改变约束条件,实现交互式挖掘而且可将挖掘的目标仅仅聚焦到用户感兴趣的模式上。实验表明该算法对序列模式的维护和满足用户的需求都是十分有效的。  相似文献   

6.
针对主机入侵行为的复杂性与正常用户行为的相似性,提出利用序列模式挖掘方法挖掘攻击者频繁使用的主机入侵命令序列,将频繁主机入侵命令转换为底层入侵检测器的检测规则,用于检测用户的可疑行为,同时为了消除误报,设计了一个基于入侵事件状态的关联引擎,将挖掘产生的频繁主机入侵命令序列作为入侵关联规则并提出了一种新的入侵关联算法。  相似文献   

7.
传统的序列模式挖掘算法虽然能够挖掘所有的频繁序列,但在挖掘海量数据时可能因结果规模过于庞大而无法理解.基于概念格的序列模式挖掘有效地减少了中间序列的生成数量,在时间性能上具有一定的优越性,而概念格的结构特点也为自身的约简提供了便利.本文提出了近似概念的定义,首先对交易数据库建格,然后约简满足近似条件的概念,减少了频繁1-序列的数量,进而减少了总的频繁序列的数量.实验表明,在允许一定误差的情况下该方法提高了挖掘结果的可理解性和挖掘效率.  相似文献   

8.
为了从多时间序列之间发现的定性的时态相关模式可而更全面的理解和把握系统的演化特性,提出了一种基于时态逻辑的多时间序列挖掘模型.它首先将多时间序列转化为多事件序列,然后将预处理后的多事件序列利用区间时态逻辑(ITL)关系子集来定义多事件序列中事件间的时态相关模式.其次进行多状态序列融合和局部时态观测序列的生成,之后采用频繁模式挖掘算法发现多时间序列的频繁时序模式.该模型有助于解决时间序列挖掘所面临的若干挑战和难题,有助于扩展现有时间序列挖掘系统的功能,从而指导时间序列等复杂类型数据的知识发现过程.实验结果表明了该模型及算法的有效性和优越性.  相似文献   

9.
基于频繁模式树的关联分类规则挖掘算法   总被引:1,自引:1,他引:1  
构建精确而有效的分类器是数据挖掘和机器学习中的一个重要任务.提出了一种基于频繁模式树的关联分类规则挖掘算法,该算法同时考虑所有属性,并对现有关联分类规则挖掘算法中内存要求高、类别属性处理难、I/O访问次数多等问题提出了相应的解决方案.试验结果表明,该方法可以取得比同样基于关联规则的分类算法CMAR更高的执行效率以及基于规则的决策树分类算法C4.5更好的分类效果.  相似文献   

10.
数据挖掘方法可以处理庞大的日志审计数据,并更快地提取入侵模式.提取网络入侵模式所用的2个核心算法是关联规则算法和序列规则算法.它们被用于提取每个连接记录内部和记录间的特征模式.在原算法的基础上,采用向量标识频集的方法,使其较好地达到时间和空间的平衡.  相似文献   

11.
快速频繁序列模式挖掘算法   总被引:4,自引:1,他引:3  
为解决从数据库中挖掘长模式可能遇到较高的计算复杂度问题, 提出一种新的算法FFSPAN. 传统上, 要判断一个序列是否频繁, 需要在原数据库中判断整个序列是否频繁; 而算法FFSPAN是通过在序列数据库中寻找一个频繁项或一个频繁项集来代替寻找一个完整的频繁序列, 而且FFSPAN算法每次扫描的数据库都是迅速减小的, 这使得算法在挖掘的序列模式越长时越有效. 在标准测试数据集上的实验结果表明, FFSPAN算法非常有效.  相似文献   

12.
针对序列模式挖掘中, 频繁子序列个数随模式长度增加而爆炸性增长的问题, 提出一种从序列数据库中挖掘最大频繁序列模式的新算法(MFSPAN). MFSPAN充分利用不同序列可能具有相同前缀的性质来减少项集比较次数. 在标准测试数据集上的实验结果表明了MFSPAN的有效性.  相似文献   

13.
通过前缀序列的引入,将搜索空间划分为若干个子空间,利用模式增量技术对序贯模式进行有效搜索,并提出了项目位置索引的概念,即将原始序列数据库信息转换到项目位置索引(IPI)中,从而在搜索序贯模式时避免了复杂的多维候选序列的测试,仅需对各前缀序列对应的扩展的项目位置索引库(IPIDBs)做简单的序列数目累加操作,将复杂的高维序贯模式搜索问题巧妙地转换为一维频繁项目的搜索,降低了算法复杂度,提高了效率。  相似文献   

14.
提出在匹配度模型下频繁序列模式精简基的概念,精简基由相对于一系列匹配度阈值的最大序列模式组成,它是频繁序列模式的一个子集,可以用它来估计任一频繁序列模式的匹配度,并能将误差控制在确定范围内.还开发了一个从有噪音的序列数据库中挖掘这种序列模式精简基的算法,该算法采用了一种不需要保留候选序列模式的方法来检查最大序列模式,采用的剪枝技术也比以前的算法更有效率.实验结果显示计算频繁序列模式精简基是很有前途的.  相似文献   

15.
序列模式挖掘是在多个有序事件序列中查找出现频率大于某个阈值的序列模式的数据挖掘方法 ,自从1995年序列模式挖掘的概念被提出以来 ,人们不断地对序列模式挖掘算法进行研究和改进 .本文介绍了一种新的序列模式挖掘方法—CSE算法及其具体实现方法 ,并对该算法性能做了初步的评价 .  相似文献   

16.
提出一种快速挖掘邻近序列模式的RCSP算法。该算法只需扫描一次数据库,且通过建立前序链接编码树,借助结点的区间编码,可以在常数时间内确定序列在树中的不同映射片段之间的祖孙关系,实现序列支持数的快速计算,不必额外创建中间树,直接在树上进行挖掘,就能得到所有邻近序列模式。实验表明RCSP算法具有较好的性能。  相似文献   

17.
基于序列数据挖掘的中文网页特征选择方法   总被引:1,自引:0,他引:1  
提出了一种基于序列数据挖掘的中文网页候选特征的选择方法,并用于中文网页分类模型. 该方法运用改进的PAT树结构挖掘频繁出现在同一类中文网页中的字符串,通过净频率计算,挖掘出中文网页中频繁出现的有意义的词、短语、英文单词等,并结合CHI算法得到文本特征. 实验表明,该算法不仅能挖掘出传统方法所选择出的绝大部分特征,还能挖掘出一些有意义的、切词系统词库中没有的、能反映分类特点的人名,地名,新词、常用语、外文单词等.  相似文献   

18.
讨论了最大频繁序列模式和公平竞争层次模型(HFC),设计了最大频繁序列模式的挖掘算法(MFSPMA),把MFSPMA同HFC结合起来,提出了基于序列挖掘技术的分等级搜索可持续进化算法(SEAHSM).该进化算法设置多个不同层次的种群为不同适应度水平的个体提供生存空间,采用最大频繁子模式挖掘算法挖掘种群中的优良基因,并将具有优良基因模块的新个体注入到不同适应度水平的种群,从而实现遗传信息的稳定继承,有效避免优良基因的丢失.实验结果表明:SEAHSM在维持遗传信息稳定性、避免早熟收敛、提高搜索精度等方面表现良好.  相似文献   

19.
为提高钢筋混凝土锈蚀裂缝检测分类的效率和精度,提出了一种基于深度学习卷 积神经网络(Convolutional Neural Network,CNN)的钢筋混凝土锈蚀裂缝识别模型 SCNet(Steel Corrosion Net). 首先通过原始数据采集和数据增强构建了39 000张图片的裂缝数据集,然后利 用 TensorFlow 学习框架和 Python构建神经网络模型并进行训练测试,根据模型的训练精度和 测试精度进行网络结构和网络参数的优化,最终将 SCNet识别模型与两种传统检测方法进行 对比 . 结果表明:文中所建立的 SCNet三分类神经网络模型达到了 96.8%的分类准确率,可以 有效识别分类钢筋混凝土锈蚀裂缝,并且具有较高的准确率和可测性;在图像数据有阴影、扭 曲等噪声干扰的条件下,两种传统检测方法已不能达到理想的分类效果,SCNet模型仍能表现 出相对稳定的分类性能.  相似文献   

20.
基于PrefixSpan的快速交互序列模式挖掘算法   总被引:3,自引:0,他引:3  
为了克服序列模式挖掘过程中重复运行挖掘算法而产生的时空消耗,提出了一个快速、简单而有效序列模式的交互式算法FISPM,利用前次挖掘得到的序列构造序列模式数据库用来存储挖掘出来的所有序列, 通过缩减本次挖掘所要构造投影数据库的频繁项的数量来减少构造投影数据库所需的时间以及投影数据库的大小,从而减少时间和空间消耗,提高挖掘效率.通过设置全局最小支持度来减少算法迭代次数. 实验结果证明在交互挖掘过程中FISPM效率优于PrefixSpan.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号