首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 93 毫秒
1.
关注挖掘概率代表频繁模式问题.介绍不确定数据、期望支持度以及频繁概率的概念,介绍近似的概率代表频繁模式的概念,描述具体的概率代表频繁模式挖掘方法.概率代表频繁模式挖掘可以挖掘出能表示所有概率频繁模式的最小代表集合,减少概率频繁模式的个数,可为不确定数据挖掘结果的分析提供帮助.  相似文献   

2.
传统的频繁模式挖掘算法产出大量的频繁模式,这些大量的频繁模式对于后期的分析、处理以及理解都带来了相当大的挑战.针对上述问题,该文提出了一种改进的压缩频繁模式挖掘算法,该算法基于CFP-树通过对传统频繁模式挖掘算法的改进能够从大量的频繁模式中选择出规模更小的频繁模式代表集合,从而起到减小庞大的频繁模式挖掘结果规模的目的.实验中还将该算法和现有的RPlocal算法进行了对比,结果表明改进的压缩频繁模式挖掘算法能够在合理的时间及容错范围内获得更小的频繁模式代表集,同时大大降低了时间复杂度,提高了挖掘效率.  相似文献   

3.
文章在研究基于剪枝概念格的频繁项集表示的基础上,提出了基于多剪枝概念格模型的频繁项集表示与挖掘方法。该方法在多剪枝格基础上进行导出频繁项集的合并,进而获得全局频繁项集,有效地降低了频繁项集表示的规模;理论分析和实验结果表明,该方法能获得满足用户要求的近似所有全局频繁项集。  相似文献   

4.
采用频繁子图作为特征子图,对不确定图进行分类.提出AGF频繁子图挖掘算法,该算法将频繁子图挖掘问题转换为频繁项挖掘问题,可有效提高频繁子图生成效率.利用频繁子图构造分类模型,首次应用于不确定图,通过实验证明,给出的分类算法具有良好的分类正确率.  相似文献   

5.
研究不确定数据中的频繁闭项集挖掘,介绍不确定数据与概率频繁项集的概念,概率频繁闭项集挖掘的基本概念和概率频繁闭项集的挖掘算法,并分析该算法的性能.  相似文献   

6.
基于广义后缀树的事件序列频繁情节挖掘算法   总被引:1,自引:0,他引:1  
为了有效地挖掘事件序列频繁情节,提出了一种广义后缀树结构发现和存储频繁情节. 此结构利用广义后缀概念并且树中只包含频繁情节结点,用频繁情节发生列表逐层构建的方法提高了建树效率. 该方法充分利用了事件序列的有序特点,可用于发现各类频繁情节. 实验结果表明该算法性能优于Apriori-like频繁情节发现算法.  相似文献   

7.
分布数据库关联规则挖掘   总被引:4,自引:0,他引:4       下载免费PDF全文
先从理论上证明分布数据库局部频繁集与全局候选频繁集之间存在某种关系 ,利用该关系设计分布数据库关联规则挖掘算法 .该算法的局部频繁集挖掘利用FP -树实现 ,不需生成候选频繁集 ,全局频繁集在局部频繁集基础上直接生成 ,不需重新扫描各局部数据库 ,不会造成过度的网络通信开销 ,具有很好的挖掘效率  相似文献   

8.
阐述了关联规则挖掘对象事务数据库的特性, 对关联规则挖掘的关键问题频繁项集的几种挖掘方法:Apriori算法、最大频繁项集的挖掘算法、基于频繁链表的频繁项集挖掘算法作了分析研究,并指出了频繁项集挖掘算法优化的必要途径  相似文献   

9.
一种不确定性数据中最大频繁项集挖掘方法   总被引:1,自引:0,他引:1  
不确定性数据挖掘已经成为数据挖掘领域的新热点,频繁项集挖掘是重点研究的问题之一.但是目前出现的挖掘算法大多集中在完全频繁项集,而用于最大频繁项集和频繁闭项集的算法尚不多见.文中研究了一种基于UF-Tree的用于不确定性数据中挖掘最大频繁项集的算法,该挖掘过程分为两个步骤,第一步先得到以频繁1-项集为后缀的局部最大频繁项集,第二步得到所有的全局最大频繁项集,实验证明该算法性能良好且特别适用于稠密型、事务长度较小的数据集.  相似文献   

10.
频繁项目集挖掘用于发现项目之间的关联规则.为了高效求解面向大数据的频繁项目集,本文提出一种新的基于FP_Growth的频繁项目集并行挖掘算法NPFP_Growth(New Parallel algorithm based on FP_Growth),该算法对频繁模式树的存储结构进行改进,基于Map/Reduce并行计算模型,利用HDFS实现数据存储,在各自计算节点上构造局部频繁模式树,求解该局部频繁模式树中每个分支的最长全局频繁项目集;对于全局非频繁项目集,计算其支持数,发送至相应计算节点进行支持度统计,从而以较为简单的算法实现频繁项目集并行挖掘.实验表明,NPFP_Growth算法具有较高的计算效率和良好的可伸缩性.  相似文献   

11.
提出了针对数据水平分布的分布式数据集下的全局最大频繁项集更新挖掘算法(UDMFI),用于解决当最小支持度阈值发生变化时全局最大频繁项集的更新挖掘问题.通过提出的带项目头表的频繁模式树(HFP-Tree)来存储数据,然后根据最小支持度阈值变小时,原最大频繁项集的集合中的元素一定是新最大频繁项集的集合中某些元素的子集的特性,以及最小支持度阈值变大时,原最大频繁项集中的一些最大频繁项集将可能不再是新最大频繁项集的集合中的最大频繁项集的特性,充分利用已挖掘的结果,从而减少挖掘过程中的费用.实验结果表明该算法具有较好的效率.  相似文献   

12.
一种改进的频繁集挖掘方法   总被引:8,自引:6,他引:2  
为了有效解决关联规则挖掘中最关键的一步即频繁集的产生,构造了一个新的频繁树结构,以存储数据库中频繁项的信息,且基于该频繁树给出挖掘频繁集的算法.该方法能够避免重复扫描数据库,避免产生大量的候选集,大大地减少搜索空间.  相似文献   

13.
随着交通、网络流量监控等应用的涌现,不确定数据流频繁项集挖掘成为近年来的研究热点。通常在不确定数据流中,频繁项集所占的比例较小,导致挖掘中无效操作较多。基于这种情况,提出了一种基于预裁剪的不确定数据流频繁项集挖掘算法Prep-UF-Streaming;该算法,不仅能裁剪掉大部分非频繁项集,提高了算法的平均运行时间;而且能够检测到非频繁项集成为频繁项集的可能性,尽量不丢失频繁项集,从而尽可能地提高算法的性能。  相似文献   

14.
对图数据频繁模式的挖掘是近年的研究热点,而从图数据库中挖掘频繁模式的关键是子图测试和候选子图生成操作。与传统广泛研究的频繁项集、频繁序列、频繁子树挖掘相比较,频繁子图的挖掘更复杂、更有难度,因为图同构问题是一个NP-完全问题。因此,必须有个好的规范化编码和有效的算法来避免子图同构这个难题。  相似文献   

15.
针对在对分布式、多维数据流频繁模式挖掘算法研究时,没有删除多维数据流中的非频繁项集,存在平均处理时间长的问题,提出分布式多维数据流频繁模式挖掘算法。该方法根据人工神经网络特点,建立了人工神经网络模型,并对多维数据流训练,以达到提升挖掘效率的目的;并基于训练结果构造数据流频繁模式信息树,即频繁模式树(FR-tree:Frequent Pattern tree)。由于FR-tree中存在较多过期的多维数据流,所以需要对FR-tree剪枝,并删除非频繁项集,从而加快频繁模式计算速度,并采用分布式挖掘算法对全局FR-tree挖掘,从中取得多维数据流的频繁项集完全集,实现分布式多维数据流频繁模式的挖掘。通过对该方法的平均处理时间测试,验证了该方法的实用性。  相似文献   

16.
基于FP-Tree的最大频繁项目集更新挖掘算法   总被引:5,自引:1,他引:4  
发现最大频繁项目集是多种数据挖掘应用中的重要问题.在应用中用户需要调整最小支持度,以发现更有用的最大频繁项目集.为此提出了一种最大频繁项目集更新算法(UMFPA),该算法通过对频繁模式树(FP-Tree)中的频繁项目头表(H Table)增加两个域,从而将减少在数据库不变而最小支持度变化的情况下的更新挖掘最大频繁项目集的费用.实验结果表明,算法在进行最大频繁项目集更新挖掘时具有很好的性能.  相似文献   

17.
现有的Web日志频繁访问路径挖掘算法往往不能在追求时间效率的同时准确挖掘出符合用户浏览顺序的频繁路径.提出了有效挖掘Web日志中频繁访问路径的算法,将事务数据库转换为Web访问路径树,根据支持度进行剪枝构造最长前缀频繁子路径树,然后进行频繁路径挖掘,实验证实了此方法的有效性,并分析了支持度设置对频繁路径生成的影响.  相似文献   

18.
在挖掘最大频繁项目集的过程中,通过改变最小支持度阈值可以挖掘更有用的最大频繁项目集,为此提出了一种最大频繁项目集更新挖掘算法UAMMFI(Updating Algorithm for Mining Maximal Frequent Itemsets)。算法基于改进后的频繁模式树结构,在更新挖掘过程中,不需产生候选项目集和条件模式树,并且充分利用先前已挖掘的最大频繁项目集中包含的信息,快速更新挖掘出最小支持度阈值变化后的最大频繁项目集。实验结果表明,算法能够高效更新挖掘最大频繁项目集。  相似文献   

19.
频繁项集挖掘是关联规则挖掘算法的核心,数据流的实时、无限及不可逆性给传统数据挖掘方法带来很大挑战.频繁闭项集挖掘为频繁项集挖掘提供了完整且低冗余的结果,是近年来数据流频繁项集挖掘研究的热点之一.介绍了数据流频繁闭项集挖掘的相关概念,并从搜索空间的遍历策略、误差结果控制方式等方面对数据流频繁闭项集挖掘算法进行了分析比较.  相似文献   

20.
为了降低Web日志频繁序列模式挖掘误差,提出基于支持向量机的Web日志频繁序列模式挖掘方法。构建Web日志频繁序列模式检测序列,采用自相关特征分布式融合方法进行序列重组,提取序列模式的统计特征量,对其特征分布值进行信息融合。建立Web日志频繁序列模式融合式调度模型,采用支持向量机分析方法进行Web日志频繁序列模式挖掘的自适应学习与寻优控制,实现Web日志频繁序列模式挖掘。仿真结果表明,采用该方法进行Web日志频繁序列模式挖掘的误差较低,收敛性较好。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号