首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 31 毫秒
1.
针对目前互联网安全的主要威胁之一网页木马,基于网页木马的树状链接结构特征,引入频繁子树挖掘算法,对前期积累的4万多个恶意网页木马场景进行子树模式挖掘,提取了35个网页木马场景共同子树结构特征,利用这些特征在网页木马动态分析过程中辅助检测。实验表明:在加入基于子树特征的检测方法判定的网页木马中,动态检测方法有近20%的漏报。因此,基于子树特征的检测方法有效地提高了动态检测的检测能力和效率,同时挖掘出的典型子树模式提供了网页木马分类和溯源的依据。  相似文献   

2.
为解决带标号的有根无序树的数据库的索引问题,提出一种新的索引方法,首先挖掘频繁子树,并从中挑选出有判别力的子树作为索引属性,然后将索引属性集合中的子树转换成序列,并将索引组织成前缀树的形式.给出了在此类索引树中进行搜索的算法,并用Apriori剪枝和最大的有判别力的子树来减小搜索空间.实验结果表明:与其他基于路径的索引方法相比,这种基于频繁子树的数据库索引在索引大小和查询代价两方面都有较好的优越性.  相似文献   

3.
分布式全局频繁项目集的快速挖掘方法   总被引:8,自引:1,他引:8  
针对传统的分布式全局频繁项目集挖掘算法存在大量的候选项目集,且求全局频繁项目集的网络通信代价过高等问题,提出了一种分布式数据库的全局频繁项目集快速挖掘算法(FDMA).该算法改进了频繁模式树(FP-树)的结构,将双向FP-树改为单向,每个节点只保留指向父结点的指针,减少了指针数,由此可节省1/3的树空间;同时通过传送用3个很小的数组表示的被约束子树,在此挖掘全局频繁项目集的过程中不再生成大量候选项目集或条件FP-树,从而减小了网络通信量,提高了挖掘效率.实验表明,所提算法的挖掘速度比传统的分布式数据库数据挖掘算法至少提高了1倍之多,随着数据库规模的增大,它的扩展性将更好.  相似文献   

4.
吸收深度优先和广度优先算法的优点,充分利用Apriori原则,提出了一种连接-扩展混合型的频繁无序树挖掘算法.首先在兄弟模式子树间进行连接,然后只在模式子树的最右叶顶点上进行扩展.分别用人工数据集和现实数据集进行测试,结果表明,本文算法比uFreqt算法性能提高0.5~1.0倍,比HybridTreeMiner算法性能提高5~10倍.  相似文献   

5.
探索有约束限制的频繁模式的挖掘问题,目的是要建立一个基本框架,通过构造一种新的数据结构--约束树,解决了确定一个项集的最小约束值的关键问题.在此基础上进一步提出了一种有约束限制的模式增长算法,并进行了初步的实验验证.实验结果表明,新的算法比以前类似算法在性能上有显著提高.  相似文献   

6.
基于改进FP-树挖掘最大频繁模式   总被引:3,自引:1,他引:3  
由于挖掘密集型数据的频繁模式完全集非常困难 ,因而改进了传统的FP -树结构并提出了一种基于改进FP -树的最大频繁模式挖掘算法IFP -MAX ;通过引入后缀子树的概念 ,在挖掘过程中不用生成最大频繁模式候选集 ,大大提高了算法的时空效率。实验表明 ,IFP -MAX的挖掘速度比Miafia和GenMax快得多  相似文献   

7.
基于频繁模式树的关联分类规则挖掘算法   总被引:1,自引:1,他引:1  
构建精确而有效的分类器是数据挖掘和机器学习中的一个重要任务.提出了一种基于频繁模式树的关联分类规则挖掘算法,该算法同时考虑所有属性,并对现有关联分类规则挖掘算法中内存要求高、类别属性处理难、I/O访问次数多等问题提出了相应的解决方案.试验结果表明,该方法可以取得比同样基于关联规则的分类算法CMAR更高的执行效率以及基于规则的决策树分类算法C4.5更好的分类效果.  相似文献   

8.
提高最大频繁项目集挖掘算法的效率是关联规则挖掘研究一个重点领域。本文主要对影响最大频繁项目集挖掘效率的数据分布、搜索策略、支持度计算及剪枝策略等技术进行研究。  相似文献   

9.
树T是连通的无圈图。T的子树数是指T的所有子树的数目。L.A.Szekely和Wang Hua证明了在所有树图中,子树数最大的图是星图,最小的图是路图。本文利用树的子树计算公式,研究了直径为5的子树的数目,并探讨了直径为5的子树数目的变化规律。对于Wiener index和网络可靠性等的研究具有一定的意义。  相似文献   

10.
一种改进的频繁集挖掘方法   总被引:2,自引:6,他引:2  
为了有效解决关联规则挖掘中最关键的一步即频繁集的产生,构造了一个新的频繁树结构,以存储数据库中频繁项的信息,且基于该频繁树给出挖掘频繁集的算法.该方法能够避免重复扫描数据库,避免产生大量的候选集,大大地减少搜索空间.  相似文献   

11.
马晓培 《科学技术与工程》2012,12(20):5060-5065
针对大部分频繁子图挖掘算法,基于无向图而不适用于更具有实际意义的有向图的挖掘的现状,通过对无向图挖掘算法gSpan中编码结构的扩展,采用改进的规范形式,使编码适用于有向图领域。并使用针对有向图的DADI++存储结构来存储图集,简化了数据访问操作的代价。另外在挖掘中使用Hash表存储同构图的Hash地址和支持度,避免对图集的重复扫描和直接的同构测试。在实际数据集上运行的实验结果表明提出的Dspan算法是正确的,并比FFSM算法效率更高。  相似文献   

12.
利用Schwenk的方法,证明了几乎所有的树都有一个非同构的树,使得它们有相同的子树的数目.  相似文献   

13.
OPFP-MAX是基于有序FP-tree结构和投影数据库的最大频繁模式挖掘算法。有序FP-tree结构不仅可以减少空间的浪费,而且由于树结构的有序性,在挖掘数据时可以减少挖掘事务项的数量,从而加快挖掘效率。算法采用垂直投影方案实现数据分解,基于投影数据库创建局部树结构,从而进一步减少对系统空间资源的浪费。采用优化策略加快挖掘效率。实验验证了算法的可行性和优越性。  相似文献   

14.
为了实现对数据流的序列模式挖掘,提出了基于数据流的序列模式挖掘算法MFSDS-1和MFSDS-2,它们均通过调整入选度的大小来调整保存信息的粒度.算法MFSDS-2利用分层存储结构,不仅能更好地保存序列信息,而且可以通过与全局序列模式的对比得到当前活动的一些异常序列模式.实验结果表明,基于分层存储的算法MFSDS-2的效率比算法MSFDS-1高.  相似文献   

15.
该文探讨挖掘不确定性数据频繁项集,在Carson Kai-Sang Leung等人提出的一种基于树的UFPgrowth算法的基础上进行改进,提出新算法-UFP-growthT.实验表明,该算法可以有效地挖掘不确定性数据的频繁项集,且拥有高效性和伸缩性.改进后的算法在一定程度上减小了UFP-tree的大小,加快了挖掘过程...  相似文献   

16.
刘家壮给出了生成根树的一种算法。本文通过引进根树的递归生成的思想,给出了另一种算法,它的时间复杂性是线性的。  相似文献   

17.
为了实现对数据流的序列模式挖掘,提出了基于数据流的序列模式挖掘算法MFSDS-1和MFSDS-2,它们均通过调整入选度的大小来调整保存信息的粒度.算法MFSDS-2利用分层存储结构,不仅能更好地保存序列信息,而且可以通过与全局序列模式的对比得到当前活动的一些异常序列模式.实验结果表明,基于分层存储的算法MFSDS-2的效率比算法MSFDS-1高.  相似文献   

18.
通过类型转换技术,探讨在含有类别属性数据库中提取联系性规则的问题,给出相应的数据结构和算法,并对实验结果做了定量分析  相似文献   

19.
频繁项集挖掘是关联规则挖掘算法的核心,数据流的实时、无限及不可逆性给传统数据挖掘方法带来很大挑战.频繁闭项集挖掘为频繁项集挖掘提供了完整且低冗余的结果,是近年来数据流频繁项集挖掘研究的热点之一.介绍了数据流频繁闭项集挖掘的相关概念,并从搜索空间的遍历策略、误差结果控制方式等方面对数据流频繁闭项集挖掘算法进行了分析比较.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号