首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 78 毫秒
1.
关联规则挖掘是数据挖掘的一个重要组成部分.为提高关联规则的挖掘效率,提出了一种基于布尔矩阵和MapReduce的FP-Growth算法(BPFP),分析了算法的时间和空间复杂度.该算法使用Hadoop框架和布尔矩阵以减少对事务数据的扫描次数,利用两次MapReduce来实现频繁项集的挖掘.在多个数据集上的实验结果表明,与原FP-Growth算法相比,BPFP算法具有更高的执行效率、更好的加速比.  相似文献   

2.
黄燕 《当代地方科技》2009,(11):163-164
本文利用Apriori算法对图书管理集成系统产生的流通数据进行数据挖掘,找出读者借阅书目之间的关联规则,从而指导图书馆工作人员主动的向读者推荐满意的图书。  相似文献   

3.
关联规则是数据挖掘的一个重要研究内容,主要用于从大量数据集中挖掘出有价值的数据项之间的关联关系.典型案例是超市的购物篮分析,主要对顾客的购买记录数据库进行关联规则挖掘,可以发现顾客的购买行为.本文依据Apriori算法的两个基本性质,即任何大项集的子集一定是大项集,非大项集的超集一定是非大项集,对经典的Apriori算法要多次扫面事务数据库的问题,作了一些改进,并进行仿真计算,结果表明,改进的算法确实减少了扫描次数.  相似文献   

4.
数据挖掘应用极大地推动了人们掌握、处理信息的能力.文章主要介绍了数据挖掘中的关联规则,关联规则中的经典算法Apriori算法,以及Apriori算法存在的不足,提出了Apriori算法的改进研究.  相似文献   

5.
针对Apriori算法在面对大规模数据时效率较低的问题,提出了一种基于划分和压缩数据库的改进方法。该方法首先依据特征数据出现的频率将数据按照升序存储在临时数组中;然后将原始事务数据库分为几个互不相交的事务数据库,使得子数据库能够容纳在内存中;最后根据每个子数据库计算出的频繁项集计算整个数据库的频繁项集,从而消除了不必要的冗余数据。通过改进可以将大规模数据集进行有效的划分和压缩,对子数据库进行关联规则挖掘。实验结果表明,改进的Apriori算法在针对海量数据挖掘的执行速度和效率都有很大提高。  相似文献   

6.
因初始项集中的数据特征相关,使关联规则Apriori算法的数据挖掘结果存在误差.为了解决这个问题,结合粗糙集理论(RST),提出一种改进的关联规则数据挖掘算法;然后,将该算法应用到软件工程风险因素和风险缓解因素管理分析中,提出一种新的软件工程适应性结构.仿真结果表明,该改进算法提高了挖掘数据的效率.  相似文献   

7.
关联规则挖掘是目前数据挖掘的研究难点之一,介绍了关联规则的划分情况,对频集算法进行了改进,提出了处理数值型字段的基本方法,展望了关联规则挖掘的未来研究方向.  相似文献   

8.
介绍了由ChristianHidber提出的在线挖掘关联规则算法Carma,提出了该算法的若干改进,减弱了原算法第一步有交易的子集v被插入集合V的条件,同时改进了maxMissed的计算公式,使其计算更为简单。实验证明,以上改进提高了算法的速度。  相似文献   

9.
一种改进的Apriori算法   总被引:1,自引:0,他引:1  
Apriori算法存在许多可以改进的地方.例如它需要反复读取数据库,并且读取的次数由项目集中的项目个数来确定,I/O负载与最大项目集的项数成正比.本文提出一种只读一次数据库的的改进算法.  相似文献   

10.
为了提高词性标注模型训练语料的质量,设计了一种利用FP-Growth算法从训练语料库中自动获取词性标注规则的方法,并将该方法与基于Apriori算法的词性标注规则获取方法进行了对比实验.实验结果显示,对于0.1万、0.2万和1万词级的小规模语料库,2种方法获取的词性标注规则条数均相同,但基于FP-Growth算法的时间耗费分别仅为基于Apriori算法的0.013 866%,0.010 399%,0.003 132%;对于10万、100万词级的训练语料库,基于Apriori算法无法获取任何规则,但基于FP-Growth算法依然可以在合理时间内获取有效的规则.这说明,基于FP-Growth算法的词性标注规则获取方法是可行且高效的,满足在优化训练语料库时能从不同规模的语料库中自动获取词性标注规则的实际需求.  相似文献   

11.
基于MapReduce的Eclat改进算法研究与应用   总被引:1,自引:0,他引:1  
针对Eclat算法在挖掘海量数据中的频繁项目集时存在的内存和计算资源不足等问题,将Eclat算法与目前流行的大规模数据集并行编程模型MapReduce结合,解决了Eclat算法在数据挖掘过程存在的瓶颈问题,运用于动车组故障诊断系统中,提高了关联规则挖掘的效率.  相似文献   

12.
一种改进的Apriori算法   总被引:3,自引:0,他引:3       下载免费PDF全文
介绍了关联规则挖掘的情况,并在分析关联规则的数据挖掘算法的基础上,提出一个改进的Apriori算法.新算法仅对数据库扫描一次,就能找出所有的频繁项集,从而提高了挖掘的效率,具有一定的实用性  相似文献   

13.
针对传统的关联分析算法Apriori执行效率低、I/O过重、计算量过大等问题,提出了一种通过减少扫描数据库次数来降低候选项集计算复杂度, 在频繁项集求解过程中通过将事务项集转换为行向量,利用“与”操作来提高算法执行效率的Apriori改进算法。利用学生在校行为数据集对Apriori改进算法进行有效性和高效性验证。同时,为了符合算法对样本数据的要求,在样本数据处理过程中对原始数据进行了清洗和离散化处理,定义了分析对象的样本数据离散化处理的规则。通过实验分析比较了Apriori改进算法与经典Apriori算法的性能。结果表明,Apriori改进算法保持了对实际分析对象关联规则挖掘的有效性,同时具有更高的执行效率。  相似文献   

14.
本文提出了一种基于遗传算法,结合网站的拓扑结构,对网站用户进行聚类分析的模型,阐述了遗传算法在优化过程中染色体编码、遗传算子的设计等问题.实验证明能解决常规聚类算法不能有效处理局部极值、聚类结果对初始聚类中心的选取有着很大的敏感性的问题,是一种有实用价值的方法.  相似文献   

15.
给出三类约束,并讨论了约束的反单调性,实现了一种交互式的可约束的最小关联规则集挖掘算法,并分析了算法的优越性。  相似文献   

16.
数据挖掘就是利用机器学习的方法从大量数据中提取有价值知识的过程.本文以运动员体能测试数据为分析对象,研究应用数据挖掘技术解决运动员体能指标优化分析问题的方法.文中重点介绍了关联规则挖掘的原理与方法,提出并实现了适宜于网球运动员体能指标优化分析的算法,并进行了实际应用,发现了出乎常规的规律.  相似文献   

17.
在关联规则的挖掘过程中引入遗传算法,并且结合一个实例,给出了详细的利用遗传算法挖掘关联规则的实现方法。遗传算法的引入很好的避免了规则集中的"假规则"问题。同时,在算法的具体实现过程中,采用了截断赌轮、动态变异概率等方法,有效避免了遗传算法中早熟现象的发生。  相似文献   

18.
间接关联是数据挖掘领域中一种数据项之间的关联关系,可有效地应用于市场营销及Web日志分析等领域.现有的间接关联挖掘算法采用Apriori算法框架,需挖掘出所有的频繁项目集,因而存在挖掘效率低的缺陷.为此,提出了一种基于前缀广义表的快速间接关联挖掘算法,该算法无须生成所有的频繁项目集且仅须扫描数据库2遍,可有效提高间接关联的挖掘效率.  相似文献   

19.
基于集合运算的频繁集挖掘优化算法   总被引:1,自引:0,他引:1  
挖掘关联规则是数据挖掘中一个重要的课题,产生频繁项目集是其中的一个关键步骤。 提出了一种基于集合运算的频繁项目集挖掘算法,并将该算法与经典算法Apriori进行比较。该算法只需要对数据库扫描一遍。实验表明该算法的效率较好。  相似文献   

20.
针对Apriori算法需要多次扫描数据库以及可能产生庞大候选集的瓶颈问题,提出了一种改进的频繁项目集挖掘算法,该算法仅通过一次数据库的扫描生成一个链表,以比特位的方式存储项目在事物数据库中出现的位置,并在不产生候选集的基础上通过逻辑运算与集合运算的直接生成频繁项目集。经过实例分析,结果表明该算法相对于Apriori算法,能够在保证准确率的基础上拥有更低廉的代价。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号