首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到18条相似文献,搜索用时 281 毫秒
1.
频繁项目集挖掘用于发现项目之间的关联规则.为了高效求解面向大数据的频繁项目集,本文提出一种新的基于FP_Growth的频繁项目集并行挖掘算法NPFP_Growth(New Parallel algorithm based on FP_Growth),该算法对频繁模式树的存储结构进行改进,基于Map/Reduce并行计算模型,利用HDFS实现数据存储,在各自计算节点上构造局部频繁模式树,求解该局部频繁模式树中每个分支的最长全局频繁项目集;对于全局非频繁项目集,计算其支持数,发送至相应计算节点进行支持度统计,从而以较为简单的算法实现频繁项目集并行挖掘.实验表明,NPFP_Growth算法具有较高的计算效率和良好的可伸缩性.  相似文献   

2.
针对经典挖掘算法挖掘效率低、主观性强、生成关联关系过多的问题,从样本筛选和关联规则生成两个方面提出一种面向高维数据关联规则挖掘的新型算法(mining multidimensional association rules by combination, Marc)。所提算法通过计算样本的分布系数和删除阈值,综合自定义支持度在初读数据集时对样本进行双重筛选,在挖掘之初降低弱样本影响。在频繁项和关联规则生成时以样本关系表和样本全关系组合模式挖掘信息,降低挖掘过程的复杂性和资源消耗。试验结果表明:Marc算法挖掘出的频繁项和关联规则数量显著降低,在挖掘效率和内存消耗上均优于Apriori、FP-Growth和Eclat算法,且维度越高,数据集越大,优势越明显,Marc算法频繁项和关联关系挖掘的精度为100%。  相似文献   

3.
分布数据库关联规则挖掘   总被引:4,自引:0,他引:4       下载免费PDF全文
先从理论上证明分布数据库局部频繁集与全局候选频繁集之间存在某种关系 ,利用该关系设计分布数据库关联规则挖掘算法 .该算法的局部频繁集挖掘利用FP -树实现 ,不需生成候选频繁集 ,全局频繁集在局部频繁集基础上直接生成 ,不需重新扫描各局部数据库 ,不会造成过度的网络通信开销 ,具有很好的挖掘效率  相似文献   

4.
针对传统关联规则隐藏算法直接遍历数据集,而导致输入输出流资源浪费的问题,提出一种基于集合和剪枝原理的关联规则隐藏算法。该算法首先建立频繁模式树(FP-tree),利用后剪枝原理去除属性相同规则,减少了遍历原始数据集所耗I/O时间;然后通过建立集合来保存真实频繁序列,并以集合为单位隐藏关联规则,既保证数据集质量,又提高频繁序列挖掘效率。实验结果表明,该算法与GSP、SPADE算法相比较,不仅更好地保证了数据集的高质量,而且降低了20%~50%频繁序列挖掘时间,并在隐藏敏感规则上有较好的实用性。  相似文献   

5.
数据挖掘中并行离散化数据准备优化   总被引:2,自引:0,他引:2  
在海量数据挖掘中,针对元数据的离散化数据准备处理能有效提高数据挖掘效率.本文提出了一种并行比较并获得最优离散化的数据准备算法(AOA),针对不同数据集,先进行数据集的特性检测以获得数据集分布特性,按照分布特性进行数据集的异常值检测和剔除,并行完成与分布特性适配的离散化方法处理,通过比较不同离散化方法的熵、方差指数、稳定性参数的最小欧氏距离,根据三个参数自动化比选,获得最优离散化的预处理成果.仿真表明,对不同样本数据库进行关联规则挖掘结果中,比较四种固定的离散化数据预处理方法,在使用AOA数据准备算法并行比选出最优的离散化来数据预处理后,在不同最小支持度阈值情况下,挖掘得到关联规则数都更少,因此效率得到提高.  相似文献   

6.
基于改进型FP-Tree的分布式关联分类算法   总被引:1,自引:0,他引:1  
传统的信息挖掘技术已经无法满足大数据环境下日益复杂的应用需求,而分布式数据挖掘技术是解决这个难题的一种手段,因此提出了基于改进型频繁模式树(FP-Tree)的分布式关联分类算法。首先,在各局部节点优化FP-Tree。生成局部条件模式树(CFP-Tree),再通过各节点间传送CFP-Tree构建全局CFP-Tree;其次,在挖掘全局CFP-Tree时通过计算显著度来获取初始的全局显著分类规则;最后,利用剪枝策略选取一个较小规则集来构造全局的关联分类器。实验结果表明该算法能够有效降低网络通信量,提高信息挖掘效率,同时保证剪枝的质量和规则的统计显著性,提高分类的精确性。  相似文献   

7.
对海量的时间序列进行处理,挖掘其背后蕴涵的价值信息具有重要的意义。本文结合了时序逻辑和数据挖掘的知识对基于FP_树的时序关联规则展开了研究,并在传统的算法基础上提出了一种改进算法。该方法不用生成大量的频繁模式候选集,从而提高了时序关联规则的挖掘效率。  相似文献   

8.
时序关联规则的研究具有重要的现实意义,因而根据传统的FP-树思想,提出了一种基于改进的FP-树的时序关联规则挖掘的方法.根据FP-树的思想,将时间序列中的频繁项映射到树中,以降低频繁时序模式的搜索空间,该算法在挖掘过程中不用生成大量的频繁模式候选集,提高了时序关联规则的挖掘效率.  相似文献   

9.
传统的基于支持度—置信度框架的关联规则挖掘方法可能会产生大量不相关的、甚至是误导的关联规则,同时也不能区分正负关联规则。在充分考虑用户感兴趣模式的基础上,采用一阶谓词逻辑作为用户感兴趣的背景知识表示技术,提出了一种基于背景知识的包含正负项目集的频繁模式树,给出了针对正负项目集的约束频繁模式树的构造算法NCFP-Construct,从而提高了关联规则挖掘的效率和针对性,实验结果显示该方法是有效的。  相似文献   

10.
介绍了模糊关联规则挖掘算法的基本思想及实现步骤,提出了模糊关联规则的并行挖掘算法.并行挖掘算法采用并行的模糊c-均值算法将数量型属性划分成若干个模糊集,并借助模糊集软化属性的划分边界.用改进布尔型关联规则的并行挖掘算法来发现频繁模糊属性集.最后由多个处理器并行地产生满足最小模糊信任度的模糊关联规则.在分布式互连的PC/工作站环境下进行性能分析,结果表明并行的挖掘算法具有好的可扩展性、规模增长性和加速比性能.  相似文献   

11.
一种高效关联规则挖掘算法   总被引:1,自引:0,他引:1  
为了提高关联规则挖掘算法处理数据库的效率,在研究AprioriTid算法的基础上提出一种高效的关联规则挖掘算法AprioriTidD,在计算数据库中的频繁项集时依靠有效的裁剪减少无效项集的产生,并且可减少产生候选项集,从而有效地提高算法的效率.选取程序模拟超市购物产生的3个试验数据集,应用AprioriTidD算法对该...  相似文献   

12.
频集挖掘是关联规则挖掘的关键步骤,它对强规则、相关分析和时间序列有着重要的意义.常用的频集算法包括Apriori和FP-G rowth.为了提高算法效率,提出了一种基于D iffset的混合算法———D iffsetHybrid,该算法根据数据集的稀疏程度决定采用D iffset的某种形式来挖掘频集,减少了存储空间,提高了算法效率.试验表明,该算法对于稀疏数据集和稠密数据集都有良好的计算性能.  相似文献   

13.
低速率拒绝服务攻击(LDoS)比传统的DDoS攻击更加难以检测与防范,为此,分析了加入LDoS攻击的网络流分布特性,通过设置流信息熵阈值定位出可疑IP流对,并采用基于FP-Tree候选组合频繁模式的挖掘算法,将候选频繁端口模式在FP树路径中进行匹配来发现LDoS攻击及其攻击特性.仿真实验表明,该方法效果显著.  相似文献   

14.
Apriori算法是关联规则挖掘的经典算法,具有原理简洁、易编程实现等优点,得到广泛应用。针对该算法扫描数据库次数过多,产生大量冗余候选集的缺陷,在现有Apriori算法改进优化思想的基础上,结合矩阵、改进频繁模式树和计算候选集频数优化策略提出了一种改进的关联规则挖掘算法——MIFP-Apriori算法。实验表明,该算法能够将扫描数据库次数降低到一次,有效解决产生大量冗余候选集的缺陷,提高算法效率。  相似文献   

15.
针对传统的关联规则在试卷评估中应用出现的问题:由于试题的难易程度不同,被答对的概率也不一样,即数据集中数据项发生的概率不一样,数据项具有倾斜支持度分布的特征,选择合适的支持度阈值挖掘这样的数据集相当棘手。文章提出了基于试题难度系数加权的关联规则挖掘算法,从而解决因试题难度不同而导致数据项出现的概率不均的问题,发现更多有趣的关联规则,并且理论上证明了基于难度系数的加权关联规则算法保持频繁项集向下封闭的重要特性。  相似文献   

16.
数据挖掘本质上是一种新的商业信息处理技术,通过对数据进行统计、分析、综合和推理,发现数据间的关联性、未来趋势以及一般性的概括知识,用以指导高级商务活动。由于需要,对数据间的关联性的数据挖掘算法模型已成为数据库及相关领域的一个研究热点,给出了一种基于分布式数据库的挖掘模型及其相应的一种有效的挖掘算法,其由若干个站点集合而成,各个站点拥有各自的数据库、中央处理机、客户端,以及各自的局部数据库管理系统,依靠通讯网络连接。采用购物篮分析式关联规则,将各个数据库文件的数据合成,从而得到挖掘结果,对挖掘的方法又进一步挖掘,即将不满足条件的规则重新传送到各分布式站点上进行更加精确的挖掘处理,从而避免了频繁的网络通讯。该算法在减轻网络频繁的通讯负担,体现并行计算以及异构数据挖掘方面具有独特优点。  相似文献   

17.
为了表示复杂庞大的概念层次树,文中提出了一种更加通用的编码方案,将概念分层应用于模糊关联规则的挖掘.此外,为解决隶属度函数难以主观确定的问题,引入一种SOFM网络来确定样本数据的隶属度函数.基于改进的概念层次树的编码方案和SOFM网络,将模糊集引入关联规则挖掘中,设计了一种新的多层模糊关联规则挖掘算法.实验结果表明,该算法可以有效地挖掘出易于理解的、有意义的多层次模糊关联规则,具有很好的效率和伸缩性.  相似文献   

18.
随着网上信息的不断增加,越来越多的用户迷失在信息的海洋中,如何利用有效的方法和手段从大量的信息中找出有价值、能为用户所用的知识,是数据挖掘的主要任务.由于Apriorl算法在频繁模式挖掘过程中需要多次扫描数据库、算法运行时间较长,因此笔者提出一种改进的Apriori算法——FPMUDF(频繁模式挖掘利用动态函数)算法,这种算法利用事务ID进行配对,从而产生频繁项目集,减少了算法运行的时间,较好的提高了算法的性能.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号