共查询到14条相似文献,搜索用时 46 毫秒
1.
一种基于树的频繁模式挖掘算法 总被引:4,自引:0,他引:4
提出了一种基于树的频繁模式挖掘算法TBA-FP。它以树表示法压缩数据库所含模式信息,将挖掘问题转化为按深度优先策略构造频繁模式树,并引入了虚拟裁剪等优化技术。实验表明,TBA-FP挖掘“长”模式的时间效率与空间可伸缩性远远优于经典算法Apriori. 相似文献
2.
为提高关联规则挖掘算法的效率及其对大型数据集的适应性,提出了基于划分的带项目约束的频繁项集挖掘算法Partition CHS Miner。算法按照约束条件裁减数据集,并采用基于约束的超结构CHS(con-straint-based hyper-structure)存储数据。对大型数据集,先将其划分为多个不相交的数据子集,使子集的大小适合主存,然后在子集上采用基于超结构的带项目约束的挖掘算法挖掘出局部频繁项集,最后合并所有子集中的频繁项集形成全局的带约束的候选项集,计算出全局频繁项集。实验证明了算法的有效性。 相似文献
3.
基于包含索引的频繁闭序列模式挖掘的新算法 总被引:1,自引:0,他引:1
频繁闭序列模式惟一确定全体频繁序列模式,且规模小得多.传统的闭序列模式挖掘算法对每个频繁项目都进行扩展,往往会产生大量的非闭合序列.为解决这一问题,提出了一种新的基于包含索引的频繁闭序列模式挖掘算法,其主要思想是只对闭项集进行扩展,大大减少了非闭合序列的产生.首先,论证了闭序列模式只能由闭项集组成;其次,说明了如何利用包含索引来快速发现闭项集;最后,给出了一种深度优先的挖掘频繁闭序列模式的新算法.实验结果表明,该算法具有较高的效率. 相似文献
4.
叶飞跃 《系统工程与电子技术》2005,27(3):560-564
针对分布式系统,提出了自适应哈希链结构的频繁模式挖掘算法。该算法首先在每个站点产生局部频繁1-项集,再产生全局频繁1-项集,根据全局频繁1-项集产生各站点的投影数据库,在各个站点分别扫描投影数据库中的交易,并根据站点可用内存情况形成相应大小的哈希链结构。通过挖掘各站点的哈希链结构得到全局频繁项集。给出了基本步骤和挖掘算法。研究表明该算法不但效率高,而且适应性强。 相似文献
5.
一种挖掘最大频繁子图的新算法 总被引:2,自引:0,他引:2
如何从大量的图中挖掘出令人感兴趣的子图模式已经成为数据挖掘领域研究的热点之一.由于其内在的计算复杂性,挖掘全部频繁子图非常困难,且得到的频繁子图过多,影响着结果的理解和应用.解决方案之一是挖掘最大频繁子图.在经典的Apriori算法的基础上,提出了一种挖掘最大频繁予图的新算法Apriori-MaxGraph.首先给出了一种新的、用于计算图的邻接矩阵规范编码的结点排序策略,大大降低了求图规范编码的复杂度,并可以加速子图规范编码序列匹配的速度.其次,针对最大频繁子图,对候选子图的生成进行了规范.最后,采用双向搜索与剪枝策略,大大减小了搜索空间,提高了算法的效率,实验结果表明,Apriori-MaxGraph算法具有较高的挖掘效率. 相似文献
6.
周海岩 《系统工程与电子技术》2009,31(10):2497-2500
在分析和研究诸多经典关联规则挖掘算法或最大频繁项目集挖掘算法的基础上,提出了一种新的极大频繁项目集挖掘算法BOFPV_MMFIA算法.该算法引入频繁项目集向量FP-V,将极大频繁项目集的挖掘过程转化为频繁项目集向量FP-V的与运算过程.算法只需扫描数据库一次,克服了Apriori及其相关算法产生大量候选集和需多次扫描数据库的缺点.又不同于BOM算法,挖掘频繁k_项目集时,需要进行 次k个向量的与运算.因此,BOFPV_MMFIA算法的效率明显高于Apriori、DMFIA及BOM算法. 相似文献
7.
频繁模式挖掘是很多数据流挖掘工作的基础.现有算法虽然能够有效的在数据流中挖掘近似的频繁模式, 但是由于数据流数据的不确定性、连续性以及海量性, 始终不能有效的将算法的时间效率和空间效率控制在一个可以接受的范围内. 本文通过使用散列表作为概要数据的存储结构, 并引入关联规则兴趣度的概念, 提出了数据流频繁模式挖掘算法MIFS-HT(mining interesting frequent itemsets with hash table), 不仅有效降低现有算法的时空复杂度, 同时提高了算法的应用价值. 最后, 实验结果表明: MIFS-HT是一种高效的数据流频繁模式挖掘算法, 其性能优于FP-Stream、Lossy Counting等算法, 并且挖掘结果更具有现实意义. 相似文献
8.
频繁子图已成为数据挖掘领域研究的热点之一。在经典的Apriori算法的基础上,提出了一种图挖掘的新算法Apriori-Graph。首先给出了一种新的、用于计算图的邻接矩阵规范编码的结点排序策略,大大降低了求图规范编码的复杂度,并可加速子图规范编码序列匹配的速度。其次,对候选子图的生成进行了规范。最后,针对频繁性检验这一瓶颈过程,给出了若干性质,从而较大地降低了候选子图频繁性判断的代价。实验结果表明,Apriori-Graph算法具有较高的挖掘效率。 相似文献
9.
提出了一个基于频繁模式树即FP-tree和支持度数组相结合的最大频繁项集挖掘算法,首先建立FP-tree,同时建立支持度数组,然后在此基础上建立最大频繁项集树MAXFP-tree,MAXFP-tree中包含了所有最大频繁项集,缩小了搜索空间,提高了算法的效率。算法分析和实验表明,该算法对稠密型数据集和稀疏型数据集均适用,并且特别适于挖掘具有长频繁项集的数据集。 相似文献
10.
11.
杨君锐 《系统工程与电子技术》2004,26(11):1701-1704
针对关联规则数据挖掘中频繁项目集的二次挖掘问题,提出了一种能够解决当最小支持度发生变化而交易数据库不变情况下进行二次挖掘的改进算法(UMSA)。该算法充分利用频繁项目集的特性,通过新的拼接方法来减少候选项目集的生成,在扫描交易数据库确定k维频繁项目集时,采用在交易数据库中剔除无用的交易,达到不断减小交易数据库规模的目的,克服了一些算法中存在的漏采现象,并在一定程度上解决了非确定性问题。通过举例说明该算法的执行过程及其算法的正确性和有效性,并对其性能进行了分析。 相似文献
12.
提出一种基于区域特征的分布式Web用户兴趣迁移模式挖掘模型DWICP,以及基于该模型的具有区域特征的用户识别方法和局部浏览兴趣迁移模式更新算法/全局浏览兴趣迁移模式更新算法,用于发现具有区域特征的用户浏览兴趣迁移模式.实验表明,该方法能够较好地解决分布式环境下Web访问行为模式研究中的区域分析需求,同时提高了用户浏览兴趣表示的准确性. 相似文献
13.
针对实际工程系统故障建模困难、现有故障预报方法实时性差的问题.从一类挖掘的角度,设计了一种基于一类支持向量机的时间序列暂态挖掘算法,提出了一种既不需要系统近似模型也不需要故障训练数据和先验知识的直接故障预报方法.在系统运行的同时实现学习和预报.提高了实时性.同时该方法简单易用,克服了传统方法在预报故障前需要预测系统未来状态的缺点.具有很强的应用意义.以釜式反应嚣为对象进行的仿真实验证明了方法的有效性. 相似文献
14.
Detecting network intrusions by data mining and variable-length sequence pattern matching 总被引:1,自引:0,他引:1
Anomaly detection has been an active research topic in the field of network intrusion detection for many years. A novel method is presented for anomaly detection based on system calls into the kernels of Unix or Linux systems. The method uses the data mining technique to model the normal behavior of a privileged program and uses a variable-length pattern matching algorithm to perform the comparison of the current behavior and historic normal behavior, which is more suitable for this problem than the fixed-length pattern matching algorithm proposed by Forrest et al. At the detection stage, the particularity of the audit data is taken into account, and two alternative schemes could be used to distinguish between normalities and intrusions. The method gives attention to both computational efficiency and detection accuracy and is especially applicable for on-line detection. The performance of the method is evaluated using the typical testing data set, and the results show that it is significantly better than the anomaly detection method based on hidden Markov models proposed by Yan et al. and the method based on fixed-length patterns proposed by Forrest and Hofmeyr. The novel method has been applied to practical hosted-based intrusion detection systems and achieved high detection performance. 相似文献