首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 778 毫秒
1.
在数据流闭频繁项集挖掘过程中,常忽略历史模式对挖掘结果的影响,并采用一种结构来标记闭频繁项集的类型,导致算法的效率不高.为此提出一种挖掘数据流时间窗口中闭频繁项集的方法NEWT-moment.该方法能在单遍扫描数据流事务的条件下完整地记录模式信息.同时,NEWT-moment提出的剪枝方法能很好地降低滑动窗口树F-tr...  相似文献   

2.
从事务数据、时间序列数据等数据库中挖掘频繁模式已在数据挖掘领域中得到了广泛地研究.针对目前已有的Apriori算法和频繁模式增长算法在时间和空间等方面的复杂性和低效性,提出了一种新的数据结构——事务模式树,用来存放待挖掘的事务信息,同时给出一种基于该数据结构的挖掘算法——事务模式树分层挖掘算法.最后,把该算法应用于保险业务.结果表明,该算法简单高效,值得推广.  相似文献   

3.
针对在对分布式、多维数据流频繁模式挖掘算法研究时,没有删除多维数据流中的非频繁项集,存在平均处理时间长的问题,提出分布式多维数据流频繁模式挖掘算法。该方法根据人工神经网络特点,建立了人工神经网络模型,并对多维数据流训练,以达到提升挖掘效率的目的;并基于训练结果构造数据流频繁模式信息树,即频繁模式树(FR-tree:Frequent Pattern tree)。由于FR-tree中存在较多过期的多维数据流,所以需要对FR-tree剪枝,并删除非频繁项集,从而加快频繁模式计算速度,并采用分布式挖掘算法对全局FR-tree挖掘,从中取得多维数据流的频繁项集完全集,实现分布式多维数据流频繁模式的挖掘。通过对该方法的平均处理时间测试,验证了该方法的实用性。  相似文献   

4.
计算机网络入侵通常具有高频度特性,因此,识别是否正常访问,对数据流中重复元素的挖掘,给出频度指标,是一种重要的依据.提出一种基于数据流频繁模式的改进型AFP算法,该算法采用滑动窗口树技术,单遍扫描数据流及时捕获网络上的最新模式信息,并将该算法应用在入侵检测模型中正常数据和异常数据的在线挖掘.解决了有限存储和无限数据流的矛盾.实验结果表明,该模型有较高的报警率和较低的误报率.  相似文献   

5.
由于能反映用户的偏好,可以弥补传统频繁项集挖掘仅由支持度来衡量项集重要性的不足,高效用项集正在成为当前数据挖掘研究的热点.为使高效用项集挖掘更好地适应数据流环境,提出了一种基于事务型滑动窗口的数据流中高效用项集挖掘算法MHUIDS.首先在二进制向量的基础上,提出了高事务加权效用项集树(HTWUI-树)的结构.进而分别给出了事务型滑动窗口初始化与滑动的算法描述.最后,提出了高效用项集的剪枝策略与挖掘算法.实验结果表明,MHUIDS算法具有较高的挖掘效率及较低的存储开销.  相似文献   

6.
根据数据流的特点,提出了一种挖掘约束频繁闭合项集的算法,该算法将数据流分段,用DSCFCI_tree动态存储潜在约束频繁闭合项集,对每一批到来的数据流,首先建立局部DSCFCI_tree,进而对全局DSCFCI_tree进行有效更新并剪枝,从而有效地挖掘整个数据流中的约束频繁闭合模式.实验表明,该算法具有很好的时间和空间效率.  相似文献   

7.
频繁模式挖掘中基于FP-growth的算法需要扫描两次事务数据库,预先给定支持度,且不支持时间敏感型数据。本文提出了一种基于频繁模式有向无环图的数据流频繁模式挖掘算法,它根据事务到来的时间给每个事务一个序号,每个事务中的数据项在存储前按数据项的顺序进行调整,频繁模式有向无环图的构建遵循这个顺序并用序号来记录事务与数据项的包含关系,模式增长过程只需要增加有向边上的序号。通过逆向遍历带有相同序号的有向边,产生条件模式基,根据动态定义的阈值抽取条件模式基信息,一次扫描数据库得到频繁模式。实验结果表明,本文算法的执行效率优于FP-growth算法,且存储节点的数目明显减少。  相似文献   

8.
针对不同时间段的数据流对当前数据流分类影响程度不同,在滑动窗口技术基础上提出了时间窗口权值的频繁模式(TWWFP)分类算法.首先,对滑动窗口中的每个基本窗口赋予一个与时间有关的窗口权值;然后,采用TWWFP-Tree结构存储当前滑动窗口中每个基本窗口中的频繁数据属性,实时更新TWWFP-Tree结构;最后,检测相邻3个滑动窗口中权值属性的平均分类误差,发现突变后及时减少下一个滑动窗口的长度可适应数据流的变化.实验证明该分类算法比没有时间窗口权值分类算法的精确度最大提高3%.  相似文献   

9.
提出了一种在单独数据流中挖掘近期频繁项的算法MRFI。该算法采用基于对时间敏感的滑动窗口的模式,保证了挖掘结果的时效性,并利用循环队列和二叉排序树实现了简单高效的数据存储和处理,该方法是一种近似算法,它可以消除历史数据对挖掘结果的影响。实验采用IBM数据发生器产生合成数据,证明了该算法的有效性。  相似文献   

10.
以Apriori算法为例介绍并分析了挖掘最大频繁项集的过程。针对数据流的特点,对数据流中频繁模式挖掘问题进行了研究,提出了一种基于数据流频繁项集挖掘的新的EC算法。  相似文献   

11.
为了提高半结构化文档数据流的挖掘效率,对原有挖掘算法StreamT进行了改进,提出了一种半结构化文档数据流的快速频繁模式挖掘算法--FStreamT.该算法针对利用集合存储候选频繁模式效率较低的缺点,采用枚举树存储候选频繁模式,可以有效地提高对候选频繁模式集合进行查找和更新的效率,同时利用频繁模式的单调性和枚举树的特点减小了维护负边界的搜索空间,从而提高了整个算法的效率.理论分析和实验结果表明,算法FStreamT与算法StreamT相比具有较高的效率,是有效可行的.  相似文献   

12.
数据流中的数据分布随着时间动态变化.为了解决传统基于事务的挖掘算法较难建立时间特征和关系特征的相关性,事务和时间作为不同维度的基本单元耗费较高数据存储量的问题,基于事务的FP-Tree挖掘算法,提出了时间间断度的概念.引入了FP-Tree结点权重的概念,将时间数据进行动态转换,设计了基于加权FP-Tree的挖掘算法,对时间数据流关联规则挖掘.在实际数据集上完成了挖掘试验.结果表明,该算法相对传统FP-Growth算法能在计算效率降低约20%的情况下,提高10%以上的平均查全率和5%以上的平均查准率.  相似文献   

13.
张长胜 《科学技术与工程》2013,13(23):6739-6745
提出一个数据流环境下的基于概念格和滑动窗口的频繁项集挖掘算法DSFMCL。算法在滑动窗口内分批挖掘新流入的基本窗口频繁概念后,生成概念格的Hasse图。引入最小支持度ζ和误差因子ε对非频繁概念节点进行剪枝操作。Hasse图中各节点包含频繁项集及其支持度信息。随着新基本窗口的Hasse图的生成与滑动窗口进行概念格纵向合并,最终通过对全部Hasse图节点的扫描可以输出所有频繁项集。实验结果表明,该算法具有良好的性能。  相似文献   

14.
流数据频繁项挖掘是一项重要的研究课题,是其他流数据挖掘任务的基础。Lossy counting 算法是第一个近似的流数据频繁项挖掘的算法,并且具有空间和时间的高效性。详细分析该算法,尤其是它不能回答关于时间的查询的不足后,对其进行改进,提出了一个在多时间粒度上挖掘流数据频繁项的设想,加入时间维度。改进后的算法在时间倾斜窗口保存与合并频繁项,可以应用于各种对时间敏感的流数据查询和挖掘应用中。  相似文献   

15.
基因表达数据集与传统事务数据集相比呈现出新的特征,由于其项目数远远大于事务数,使得大量现有的基于项目枚举的频繁闭合模式挖掘算法不再适用.为此提出一种频繁闭合模式挖掘新算法TPclose,使用TP-树(tidset-prefix tree)保存项目的事务集信息.该算法将频繁闭合模式挖掘问题转换成频繁闭合事务集挖掘问题,采取自顶向下分而治之的事务搜索策略,并组合了高效的修剪技术和有效的优化技术.实验表明,TPclose算法普遍快于自底向上事务搜索算法RERⅡ,最高达2个数量级以上.  相似文献   

16.
针对数据流的特点,提出利用函数迭代运算的方法来提取数据流中的频繁项集的挖掘方法.整个挖掘过程只需扫描数据流一次,不产生频繁候选集.算法的时间复杂度是比较低的.实验仿真结果也验证了该挖掘方法是有效的和可行的.  相似文献   

17.
基于数据流的频繁集挖掘   总被引:2,自引:0,他引:2  
针对数据流特殊的数据类型,提出了一种新的数据流挖掘算法.该算法引入了一个全新的优化方法,将边界集和频繁产生集结合起来.频繁产生集是频繁集的一种无损简缩表达方式.它所包含的模式数量比频繁集所包含的模式数量小若干数量级.边界集是频繁产生模式和其他模式之间的边界,通过观察边界集的变化可以生成新的频繁产生模式.实验结果表明,该算法的性能有明显的提高.  相似文献   

18.
挖掘最大频繁项目集是多种数据挖掘应用中的关键问题,如果采用Apriori类的候选项目集生成一检验方法,则候选项目集生成的代价通常很高.为寻求避免生成大量候选项集或生成频繁模式树的挖掘算法,提出一种从事务项集交集求最大频繁项集的迭代算法DIIP(Datasets Iteration and Intersection Pruning Algorithm),通过不断缩减事务集数据量和尽可能早地对项目集进行修剪实现最大频繁项集的挖掘,该算法有别于已有的最大频繁项集经典算法,实验表明该算法有效可行.  相似文献   

19.
传统的频繁模式挖掘算法产出大量的频繁模式,这些大量的频繁模式对于后期的分析、处理以及理解都带来了相当大的挑战.针对上述问题,该文提出了一种改进的压缩频繁模式挖掘算法,该算法基于CFP-树通过对传统频繁模式挖掘算法的改进能够从大量的频繁模式中选择出规模更小的频繁模式代表集合,从而起到减小庞大的频繁模式挖掘结果规模的目的.实验中还将该算法和现有的RPlocal算法进行了对比,结果表明改进的压缩频繁模式挖掘算法能够在合理的时间及容错范围内获得更小的频繁模式代表集,同时大大降低了时间复杂度,提高了挖掘效率.  相似文献   

20.
一种基于可变滑动窗口的数据流分段聚类算法   总被引:2,自引:2,他引:0  
数据流的应用越来越广泛,数据流挖掘成为数据挖掘的重点研究方向之一。在分析各种数据流聚类算法的基础上,提出了一种基于可变滑动窗口的数据流分段聚类算法。算法以时间序列数据流模式表示技术为参考,以去除噪音和压缩数据为目的,实现了数据流的特征提取和概要存储。实验表明,算法具有低时空复杂度、自适应等特点。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号