首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 171 毫秒
1.
Apriori是挖掘关联规则最经典的算法之一,针对该算法存在的瓶颈问题研究了基于MapReduce编程框架的简单Apriori并行算法;并在简单Apriori并行算法的基础上提出一种采用固定多阶段结合挖掘策略的改进算法——多阶段并行算法。实验结果表明,改进算法能缩短挖掘时间,提高执行的效率。  相似文献   

2.
为提高Apriori算法挖掘频繁项目集的效率,基于迭代式MapReduce模型对Apriori算法进行并行化,设计出了能够在云计算环境下进行频繁项目集挖掘的新算法.与传统的Apriori并行算法相比,新算法利用事务约减规则进行改进,减少了每次扫描时所需扫描事务的个数,能够显著减少运行时间.介绍了新算法的设计思想,研究了算法的性能.实验结果表明所提算法比已有方法具有更高的运行效率及较好的可扩展性.  相似文献   

3.
针对海量医疗文档数据中巨大潜在价值难以有效挖掘的现状,构建了基于NoSQL和MapReduce的存储与挖掘系统MSPM.通过以键值对形式存储,使复杂异构的医疗文档数据归结为统一的且适于被经典Apriori算法利用的事务数据格式,并通过挖掘MapReduce过程化,一次性全局扫描和兴趣集规约计数等优化策略,有效解决了Apriori算法在医疗大数据应用中开销大、执行速度慢和有效性差的问题.  相似文献   

4.
针对K-means算法对初值选取的依赖,收敛速度慢,聚类精度低,以及对海量数据的处理存在内存瓶颈的问题,提出一种基于MapReduce的高效K-means并行算法.该算法在MapReduce框架基础上,结合K选择排序算法进行并行采样,提高采样效率;采用基于样本预处理策略获取初始中心点;使用权值替换策略对迭代中心进行更新;此外,通过调整Hadoop集群,对算法的运行效率作出进一步提升.实验结果表明,该算法不仅具有良好的收敛性、准确率、加速比,算法性能也得到进一步改善.  相似文献   

5.
针对经典的Apriori算法依赖内存,只适用于小规模数据集,在面对海量数据集时显得无能为力以及该算法没有考虑用户的需求情况等问题,提出了基于MapReduce的Apriori前后项约束关联规则改进算法。该方法首先对经典Apriori算法挖掘过程进行了改进,加入了用户的前后项约束规则,使得在挖掘过程中剪枝的程度更大并且获取到更加精准的规则。然后利用云计算的MapReduce编程技术,对改进的Apriori算法的各个步骤并行化。实验结果表明,改进的算法在处理不同的数据集时有一定的优势,然后经过MapReduce模型并行化后,提高了对海量数据的处理能力和效率,并且具有良好的扩展性。  相似文献   

6.
对云计算技术和数据挖掘进行研究,分析Apriori算法,针对其局限性,提出优化方案,引入云计算中MapReduce模型,实现并行化。提出一种基于MapReduce的频繁项集挖掘方法,以提高算法的运行效率,降低算法执行所需的开销。  相似文献   

7.
云计算框架大大改进了并行算法的实现难度,但是大部分算法有其局限性.介绍了MapReduce(映射化简)的基本实现原理和调度模型的缺陷,提出了基于支持向量机的的MapReduce进化算法,并给出了基本模型及实现.运用Hadoop云计算平台进行了仿真验证,实验结果表明,基于支持向量机的MapReduce计算框架在候选云节点的调度分配的准确性上有明显提高,并且加快了数据迭代的效率.  相似文献   

8.
针对经典社团结构算法直接应用于大规模网络时会出现内存溢出的问题,提出一个基于MapReduce的社团结构并行算法,将经典社团发现算法与MapReduce编程模型相结合,实现了社团发现算法的并行化处理.实验平台采用Hadoop,硬件条件为普通服务器集群.实验表明此算法能突破内存瓶颈,处理数据量超过1×108的问题,可应用于大规模网络分析中.  相似文献   

9.
在云计算技术领域中,MapReduce能够帮助人们快速处理海量数据,因此在学术界以及工业界越来越受到重视。但是MapReduce在处理以文本为中心的应用时,中间结果中数据重复较多。针对该情况,已有的高频率缓冲(frequency buffering,FB)算法提出在环形内存缓冲之前添加哈希表,并将高频率键存储在哈希表中。该算法通过采样来实现,有额外开销并且统计出的高频率键并不一定准确。该文提出一种基于动态获取高频率键的MapReduce性能优化算法,通过在环形内存缓冲之前增加计数Bloom过滤器(counting Bloom filter,CBF)和哈希表,将高频率键动态地存储在哈希表中。该算法获得的高频率键更准确,同时大大减少了数据排序和磁盘I/O的开销。实际测试结果表明:该算法明显提高了作业的执行速度,比原始MapReduce提高17.04%,比FB算法提高9.31%。  相似文献   

10.
为了有效提高动车组滚动轴承故障的发现率,减少故障监控系统的误报现象,基于Apache Hadoop大数据平台对经典Apriori算法进行改进,并将其应用于动车组滚动轴承故障的预测研究工作中。首先,针对经典Apriori算法的不足,在MapReduce框架下提出以业务经验为约束的改进的Apriori算法。其次,基于文中提出的改进的Apriori算法对某铁路局的动车组状态、故障预警、维修历史等信息进行深度数据挖掘,并通过得出的关联规则进行动车组滚动轴承故障的预测。实验结果表明,文中提出的算法准确率达72%,减少了80%以上的误报报警信息,在实验环境中运算效率较传统的Apriori算法提高了50%。  相似文献   

11.
针对MapReduce框架与传统关系型数据库兼容性不好的问题,提出了一种基于分块结构的分布式关系数据库ChunkDB.并对MapReduce架构进行了扩展设计,使ChunkDB与MapReduce有效结合,将MapReduce的扩展性、易操作性、高并行性与关系数据库的索引等查询优化优势相结合.实验证明基于MapReduce的ChunkDB数据库能够为数据仓库应用提供快速高效的并行查询.  相似文献   

12.
针对传统单核DNA计算机算法求解Ramsey数时运算效率较低, 求解过程耗时高, 所得结果误差较大的问题, 提出一种基于集合理论的求解Ramsey数算法. 该算法以基于集合理论的MapReduce模型中Phoenix++系统为基础, 设计单核CPU下的圈集对完全图的Ramsey数求解算法并对其实施优化, 优化时进行数据预处理、 高效任务分割和键值对规划等过程, 获取根据Phoenix++系统基于集合理论的并行算法, 采用DNA计算机算法求解Ramsey数, 并对其数值进行验证, 实现Ramsey数的求解. 实验结果表明, 程序处理图像数量随着顶点数的增加而不断增大, 该方法求解Ramsey数的正确性较高, 最大加速比和执行效率较好, 运算性能较强.  相似文献   

13.
由于传统的Apriori算法是串行的并且效率较低,分析了Apriori算法的计算过程,针对其原理设计了一种基于Mapreduce的并行Apriori改进算法.实验结果证明,改进的算法能较好地提高关联规则挖掘的效率,具有接近线性的加速比和良好的应用价值.  相似文献   

14.
Current literature on parallel bulk-loading of R-tree index has the disadvantage that the quality of produced spatial index decrease considerably as the parallelism increases.To solve this problem,a novel method of bulk-loading spatial data using the popular MapReduce framework is proposed.MapReduce combines Hilbert curve and random sampling method to parallel partition and sort spatial data,thus it balances the number of spatial data in each partition.Then the bottom-up method is introduced to simplify and accelerate the sub-index construction in each partition.Three area metrics are used to test the quality of generated index under different partitions.The extensive experiments show that the generated R-trees have the similar quality with the generated R-tree using sequential bulk-loading method,while the execution time is reduced considerably by exploiting parallelism.  相似文献   

15.
提出了一款基于Hadoop的并行数据分析系统——PDM.该系统拥有大量以MapReduce为计算框架的并行数据分析算法,不仅包括传统的ETL、数据挖掘、数据统计和文本分析算法,还引入了基于图理论的SNA(社会网络分析)算法.详细阐述了并行多元线性回归算法和"多源最短路径"算法的原理和实现,其中,提出的"消息传递模型"能有效解决MapReduce难以处理邻接矩阵的问题;介绍了基于电信数据的典型应用,如采用并行k均值和决策树算法实现的"套餐推荐",利用并行PageRank算法实现的"营销关键点发现"等;最后通过性能测试,说明该系统适合高效地处理大规模数据.  相似文献   

16.
分布式并行计算是提高计算机性能常用的方法,但针对不同需求,并行程序的设计并没有统一的模型与方法,使得并行程序的编写完全依靠开发人员的经验。Google公司提出的分布式并行编程模型MapReduce能够完成特定类型的并行程序的开发与运行。使用哈希表对MapReduce分布式并行编程模型进行优化,减少中间结果中的碎片,并省略Combiner中间函数的调用,减少传输负载,提升运行效率,同时兼顾了Map函数与Reduce函数接口的属性,保持了MapReduce模型的并行性特点。  相似文献   

17.
k-means聚类算法的MapReduce并行化实现   总被引:1,自引:0,他引:1  
针对k-means聚类算法特点,给出了MapReduce编程模型实现k-means聚类算法的方法,Map函数完成每个记录到聚类中心距离的计算并重新标记其属于的新聚类类别,Reduce函数根据Map函数得到的中间结果计算出新的聚类中心,供下一轮MapReduce Job使用.实验结果表明:k-means算法MapReduce并行化后部署在Hadoop集群上运行,具有较好的加速比和良好的扩展性.  相似文献   

18.
在如何快速发现大规模网络的结构和特性问题中,网络规模及复杂度的快速增长给其分析研究带来了新的挑战.MapReduce及其开源实现Hadoop给大规模图的高效处理带来了希望.基于MapReduce框架的集群系统,提出了1种新的计算模型用于大规模图形的3-clique计算,来实现图挖掘.计算的基本步骤是:首先获取每个节点的第1跳信息,然后是第2跳信息,最后得到所有基于该节点的3-clique.该计算模型可以用来计算聚集系数,并且可以用于三大通话网络的挖掘.实验结果证明这种计算模型具有良好的可扩展性和性能.  相似文献   

19.
针对数据挖掘中经典的Apriori算法在计算频繁项目集时需消耗大量的时间缺点,文中利用多线程并行计算的特点,提出了基于线程并行计算的Apriori算法,该算法是将统计候选项目个数的任务交给多线程来执行,从而达到减少Apriori算法的运行时间。通过实验数据分析,该算法对减少Apriori算法的运行时间有很大的提高。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号