首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 562 毫秒
1.
不确定性数据的频繁项集挖掘的算法—U-apriori算法采用逐层迭代搜索方法,使用候选项集来找频繁项集.分析了U-apriori算法的流程和实现过程,并通过实验对比得出U-apriori算法花费较少时间和空间的优点,最后针对该算法的缺点提出了改进思路.结果表明:U-apriori算法是最佳概率频繁模式挖掘方法之一.  相似文献   

2.
一种不确定性数据中最大频繁项集挖掘方法   总被引:1,自引:0,他引:1  
不确定性数据挖掘已经成为数据挖掘领域的新热点,频繁项集挖掘是重点研究的问题之一.但是目前出现的挖掘算法大多集中在完全频繁项集,而用于最大频繁项集和频繁闭项集的算法尚不多见.文中研究了一种基于UF-Tree的用于不确定性数据中挖掘最大频繁项集的算法,该挖掘过程分为两个步骤,第一步先得到以频繁1-项集为后缀的局部最大频繁项集,第二步得到所有的全局最大频繁项集,实验证明该算法性能良好且特别适用于稠密型、事务长度较小的数据集.  相似文献   

3.
针对不确定数据频繁项集挖掘效率低和准确度不高的问题,提出了一种基于改进的频繁模式树(FPtree)和遗传算法(GA)挖掘不确定数据概率频繁项集的方法,即UFPGA(基于频繁模式树和遗传的挖掘算法).该算法根据不确定数据的构成特征,改进频繁模式树方法挖掘不确定数据频繁项集,采用缩小变异空间和增加育种算子的遗传算法搜索最大频繁项集,收缩了搜索范围,提高了挖掘效率.实验结果表明:该方法在时间复杂度方面有很好的优越性,对大规模的不确定数据挖掘提供了一种有效的技术手段.  相似文献   

4.
频繁项集的生成是关联规则挖掘中的关键问题,本文提出了一种基于无向项集图的频繁项集挖掘算法.应用优化算法对病人就诊数据进行挖掘分析,与传统的频繁项集挖掘算法相比,优化算法在执行效率上有明显的提高,对临床实践研究提供有价值的指导意见.  相似文献   

5.
最频繁项集挖掘是文本关联规则挖掘中研究的重点和难点,它决定了文本关联规则挖掘算法的性能.针对当前在最频繁项集挖掘方面的不足,改进传统的倒排表,并结合最小支持度阈值动态调整策略,提出一个新的基于改进的倒排表和集合理论的最频繁项集挖掘算法.另外,给出几个命题和推论,并把它们用于本文算法以提高性能,最后对所提算法进行实验验证.实验结果表明,该算法的规则有效率和时间性能比常用的两个最频繁项集挖掘算法(NApriori算法,IntvMatrix算法)都好.  相似文献   

6.
设计了一种不同于传统关联规则挖掘算法(如Apriori算法等)频繁项集产生算法.该算法借鉴一般免疫算法思想,并从新的角度来看频繁项集的定义,避免了传统算法中存在的"项集生成瓶颈"问题.通过对mushroom数据的频繁项集挖掘的实验,与传统方法进行了比较,其结果表明,基于免疫算法的频繁项集挖掘算法在大数据集、低支持度情况下平均挖掘时间短.  相似文献   

7.
针对目前海量数据挖掘过程中存在着频繁项集挖掘效率低、冗余项集繁多的问题,提出了改进的频繁模式树和遗传算法(FPGA),该算法鉴于异构数据的差异性特征,采用改进的频繁模式树和基于MapReduce的并行遗传算法搜索最大频繁项集,缩小了搜索范围,提高了挖掘效率.实验结果表明:该算法在时间复杂度方面有了很大提高,与传统的FP_Growth算法相比,具有更好的加速比以及更高的执行效率.  相似文献   

8.
提出了针对数据水平分布的分布式数据集下的全局最大频繁项集更新挖掘算法(UDMFI),用于解决当最小支持度阈值发生变化时全局最大频繁项集的更新挖掘问题.通过提出的带项目头表的频繁模式树(HFP-Tree)来存储数据,然后根据最小支持度阈值变小时,原最大频繁项集的集合中的元素一定是新最大频繁项集的集合中某些元素的子集的特性,以及最小支持度阈值变大时,原最大频繁项集中的一些最大频繁项集将可能不再是新最大频繁项集的集合中的最大频繁项集的特性,充分利用已挖掘的结果,从而减少挖掘过程中的费用.实验结果表明该算法具有较好的效率.  相似文献   

9.
提出一种分布式全局最大频繁项集挖掘算法(DMFI),该算法含局部挖掘与全局挖掘2个阶段。提出一个基于FP-tree的改进频繁模式树(IFP-tree)来存储数据信息。在局部挖掘阶段,先在各站点上分别建立该模式树,并使用有序方式存储频繁项目,然后,通过对各局部数据库的扫描,挖掘出局部最大频繁项集。在全局挖掘阶段,利用各局部数据库生成的最大频繁项集以及利用组通信播报消息的方式,从而挖掘出全局最大频繁项集的集合。对算法的实现以及在多种情况下进行测试。研究结果表明:DMFI算法具有较好的性能。  相似文献   

10.
频繁项集的生成是关联规则挖掘中的关键问题,本文提出了一种基于无向项集图的频繁项集挖掘算法。应用优化算法对病人就诊数据进行挖掘分析,与传统的频繁项集挖掘算法相比,优化算法在执行效率上有明显的提高,对临床实践研究提供有价值的指导意见。  相似文献   

11.
针对高维大数据不确定性的非均匀挖掘问题,提出一种基于不确定频繁模式树的模糊逻辑非均匀数据挖掘算法.首先,在考虑数据不确定性的前提下建立高维数据的区域连接演算(RCC)模型,并基于数据集合组元定义分析不确定数据集合的模糊距离;然后,采用不确定模式树对数据的非均匀特性进行均匀泛化处理,并给出了具体的实现步骤.仿真结果表明:文中方法有效地提升不确定非均匀数据集合在不同支持度情况下的挖掘效率.  相似文献   

12.
 提出一种基于DS理论的co-location挖掘方法.先将数据集按照空间对象分类,然后从分类后的子数据集中依次提取该空间对象的实例,与其他空间对象数据集中的各个实例进行配对,将找到的各实例关系记录到一个新的关系表中,作为使用DS理论求解的基础.从一个新的角度来研究co-location挖掘技术,在DS理论的基础上重新定义了参与度,基于新定义的参与度来求解co-location模式.  相似文献   

13.
目前采用博弈分析和流量预测等模型,对未来时间段道路网货运车辆超限行为进行提前识别,取得一定的检测效果,但对具有时空动态性和迁移性的超限车辆分布挖掘仍具有局限性.根据道路网超限车辆数据特点,提出一种基于弱关联频繁模式的超限行为的挖掘优化算法,该算法采用空间弱关联频繁模式构建的超限频繁模式树,建立时间弱关联的状态转移模型,得到频繁模式的预测值.在FP-growth频繁模式挖掘算法的基础上,首次建立了超限模式挖掘与货运车辆行为数据的时空弱关联,使超限行为预测算法误差率降至6%以下,有效提高了超限行为的检测效率.  相似文献   

14.
Apriori算法是关联规则挖掘的经典算法,具有原理简洁、易编程实现等优点,得到广泛应用。针对该算法扫描数据库次数过多,产生大量冗余候选集的缺陷,在现有Apriori算法改进优化思想的基础上,结合矩阵、改进频繁模式树和计算候选集频数优化策略提出了一种改进的关联规则挖掘算法——MIFP-Apriori算法。实验表明,该算法能够将扫描数据库次数降低到一次,有效解决产生大量冗余候选集的缺陷,提高算法效率。  相似文献   

15.
基于粗糙集的数据挖掘   总被引:3,自引:0,他引:3  
粗糙集理论是一种研究不完整、不确定知识处理的数学工具 ,近几年来在机器学习、知识发现、算法研究、工程应用、决策支持系统以及模式识别等应用中取得了较好的成果 .阐述了粗糙集理论的基本思想 ,介绍了人工智能中数据挖掘的一般过程及其方法  相似文献   

16.
分析了基于频繁模式的关联规则算法Fptree,给出了一种基于二进制表示的改进算法,详细介绍了该算法的主要思想,算法实现方案.并通过实例比较了两种算法,证明新算法提高了挖掘规则的效率.  相似文献   

17.
随着交通、网络流量监控等应用的涌现,不确定数据流频繁项集挖掘成为近年来的研究热点。通常在不确定数据流中,频繁项集所占的比例较小,导致挖掘中无效操作较多。基于这种情况,提出了一种基于预裁剪的不确定数据流频繁项集挖掘算法Prep-UF-Streaming;该算法,不仅能裁剪掉大部分非频繁项集,提高了算法的平均运行时间;而且能够检测到非频繁项集成为频繁项集的可能性,尽量不丢失频繁项集,从而尽可能地提高算法的性能。  相似文献   

18.
一种基于改进的AprioriAll算法的Web路径模式挖掘   总被引:2,自引:0,他引:2  
对路径模式挖掘的原理做了详细的阐述,并且针对挖掘对象的特性,对AprioriAll算法中生成侯选序列的函数做了相应的改进。最后通过实例说明了改进的AprioriAll算法在路径模式挖掘中的有效性。  相似文献   

19.
基于改进型FP-Tree的分布式关联分类算法   总被引:1,自引:0,他引:1  
传统的信息挖掘技术已经无法满足大数据环境下日益复杂的应用需求,而分布式数据挖掘技术是解决这个难题的一种手段,因此提出了基于改进型频繁模式树(FP-Tree)的分布式关联分类算法。首先,在各局部节点优化FP-Tree。生成局部条件模式树(CFP-Tree),再通过各节点间传送CFP-Tree构建全局CFP-Tree;其次,在挖掘全局CFP-Tree时通过计算显著度来获取初始的全局显著分类规则;最后,利用剪枝策略选取一个较小规则集来构造全局的关联分类器。实验结果表明该算法能够有效降低网络通信量,提高信息挖掘效率,同时保证剪枝的质量和规则的统计显著性,提高分类的精确性。  相似文献   

20.
现代信息数据的挖掘与发展   总被引:1,自引:0,他引:1  
数据挖掘作为一项从海量数据中提取知识的新技术引起学术界和产业界的极大重视。笔概括了数据挖掘的几种常见模式.如依赖模式、层次模式、序列模式等,并对这几种数据挖掘模式的特点进行了比较;阐述了从数据中提取知识的几种挖掘算法,如决策树、神经网络方法、遗传算法等;展望了数据挖掘模式和挖掘算法的发展趋势。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号