首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到15条相似文献,搜索用时 109 毫秒
1.
提出了一种基于Map Reduce模型的Apriori改进算法,该算法利用Map Reduce模型分布式处理海量的输入数据,结合Apriori算法,得到局部频繁项集,通过聚合处理得到全局频繁项集.实验证明,该算法是有效的.  相似文献   

2.
本文从减少I/O时间的角度出发,结合云计算Hadoop平台的Map Reduce模型,提出了一种基于Map Reduce的关联规则挖掘算法.算法采用幂集计算候选项集,采用Map Reduce模型在多个节点上并行找出所有频繁项集,只需要扫描事务数据库1次.实验结果表明:在事务的平均项长较小的情况下,算法具有很好的加速比和数据规模增长性.  相似文献   

3.
针对海运业务系统越来越复杂,区域间数据交换日益频繁,致使海运企业无法高效、稳定地使用传统体系处理业务信息的问题,采用Map/Reduce分布式计算模型以及分布式文件系统,设计了一个基于Hadoop的分布式搜索引擎.该搜索引擎能够使海运企业在合理时间内获取、管理、处理业务信息.通过该分布式搜索引擎,可以高效、稳定地满足海运企业日益繁重的庞大的业务需求.  相似文献   

4.
提出了一种基于处理时间的Map/Reduce动态均衡调度算法.在该算法中,为参与计算的各节点建立处理总时间指标;当节点的子任务返回时动态更新当前节点的处理时间,并按照最小处理总时间来选择子任务处理的节点.实验证明:该算法不仅减少了节点与云中心服务器的负载信息传递,而且充分利用了各计算节点的处理能力,提高了Map/Reduce调度效率,对于提升云计算服务的质量具有十分重要的理论意义.  相似文献   

5.
针对Range partition算法不能优化数据集严重倾斜情形下的两表连接效率问题, 提出一种改进的数据倾斜连接算法. 该算法将倾斜数据和非倾斜数据区别处理, 利用复制、 广播方法将数据发送到每个Reduce节点, 通过一轮Map/Reduce任务完成所有的连接操作, 可有效均衡每个Reduce处理量, 解决了数据严重倾斜对两表连接性能的影响. 与传统的分区连接算法比较结果表明, 该算法有效.  相似文献   

6.
基于协同过滤的推荐已成为推荐系统中广泛采用的推荐技术.由于应用中用户数目和商品条目的日益增长,在计算相似度和计算预测时,单机集中式计算已不能满足推荐系统实时性和可扩展性的要求.针对这一问题,设计并实现了Item-Based并行协同过滤推荐算法.该算法采用Hadoop的MapReduce与HDFS架构,可分为Map与Reduce两个过程.通过在Map和Reduce节点上的并行处理可提高算法的执行效率.实验结果表明,该算法可明显减少推荐时间,提高推荐实时性,获得良好的可扩展性.  相似文献   

7.
结合云计算中Map/Reduce分布式编程技术引入了基于CPU-GPU异构混合并行编程模式,给出了该并行编程模式的原理和实现过程。该模式通过采用CUDA多线程并行机制提高了大规模数据处理的效率。文中对比分析了云计算中两种典型的分布式存储系统GFS和HDFS,最后从宏观角度阐释了云计算虚拟化技术的三层部署架构和基本类型。  相似文献   

8.
针对流数据规模参差不齐、 流量动态变化且突发性较强的特点, 提出一种可伸缩的动态MapReduce计算模型, 支持大规模动/静态数据在线处理. 基于Event推送方式, 利用Netty底层异步通信方式等技术, 建立在线MapReduce数据传输机制, 进一步实现其原型程序, 解决了大规模分布式计算程序的快速在线传输和数据分发等问
题, 支持流数据动态分发机制, 为动态MapReduce模型提供支撑. 与HadoopOnline系统的传统Socket管道传送方式相比, 该方法能有效提高作业之间数据的传送效率, 从而提高大规模流数据处理的实时性.  相似文献   

9.
MapReduce作业性能与内存配置存在极大的相关性,针对准确预测作业内存困难问题,根据Java虚拟机(JVM)的分代内存管理特点,提出了一种分代内存预测方法.首先使用回归模型对年轻代与垃圾回收平均时间的关系进行建模,将寻找合理年轻代内存大小的问题转换为一个受约束的非线性优化问题,并设计搜索算法来求解该优化问题.文中还建立MapReduce作业的Map任务和Reduce任务性能与内存的关系模型,求解最佳性能的内存需求,从而获得Map任务和Reduce任务的年长代内存大小;使用聚类算法预测JVM晋升对象阈值,优化JVM配置,减少了JVM的垃圾回收暂停时间.实验结果表明,文中提出的方法能准确预测作业的内存需求,显著提升作业运行性能.  相似文献   

10.
主要从Map Reduce作业调度和Hive性能调优两个方面对Hive的性能优化进行研究.对于Map Reduce主要从编程模型切入,分析其执行过程,并从map端、reduce端进行参数调优.接着从Hive框架角度入手,分别从分区表和外部表以及常用数据文件的压缩、行式存储与列式存储等方面进行深入研究.实验结果表明,snappy压缩、orcfile/parquet存储格式对于列式查询,提高查询效率,对于大数据分析平台有较好的兼容性.  相似文献   

11.
云环境下的流式空间信息服务   总被引:1,自引:1,他引:0  
随着物联网、传感器技术与应用的发展,对大规模多维空间数据集成与服务的需求愈加迫切.如何实现基于大规模、多维空间数据流的实时计算成为空间数据处理领域的难点.结合云计算的特点,提出针对高速、大流量空间数据的实时处理方法.通过对多维、异构空间数据进行智能处理,生成结构化、简洁化的中间属性集;利用针对高速数据流的大规模数据实时处理方法,解决Map/Reduce难以满足此类计算实时性要求的不足.在此基础上,设计了流式空间信息组织模型与云端适配方法,对方法中的关键技术问题进行了描述.实践表明,该方法可显著提高动态空间信息的服务质量与运行性能.  相似文献   

12.
The paper proposes the research on the distributed vertical search and information integration technology based on Web mining, which aims at satisfying the requirements of the specific fields’ applications. Nowadays, mining, analyzing, and integrating Web’s content have become an important trend for daily use. The technique includes the Map/Reduce model, the depth search, and the basic principles of information integration. The focus of the paper is how to implement the distributed vertical search engine based on Map/Reduce technology and the information integration system. System optimization mechanism and the system test are also proposed.  相似文献   

13.
为高效地处理大规模矢量空间数据,基于Hadoop的并行计算框架MapRedue,实现了一种分布式的矢量空间数据选择查询处理方法.首先,分析OGC简单要素标准与Hadoop的Key/Value数据模型,设计了可存储于Hadoop HDFS的矢量文件格式;其次,根据两阶段的过滤-精炼策略,对Map输入数据分片、选择查询处理过程及Reduce结果合并等关键步骤进行了详细阐述;最后,基于上述技术,利用Hadoop集群环境对所提出的方法进行验证,该方法具有较好的可行性和较高的效率.  相似文献   

14.
介绍了目前国内外工作流技术的研究现状,在分析比较的基础上提出了一种基于活动网络图的柔性工作流系统的设计实现方案。该方案给出了一种工作流运行期的动态控制模型,表现在工作流执行路由、活动功能、相关资源的动态调整,较好地解决了企业实际工作流运行中动态变化的需求。同时,本系统结合了活动网络图直观、易用的特点,C/S、B/S优点结合的工作流部署方案,让用户在轻松直观的环境下快速地建立工作流模型、控制工作流的运行并监视工作流的运行状态。  相似文献   

15.
本文主要分析NOSQL在WEB日志分析中的应用,使用MongoDB数据库和HadOOP进行系统架构,使用Map Reduce方法处理分析WEB日志数据。在WEB前台显示中,本文将WEB日志统计分为若干个核心模块,并使用jQuery技术进行WEBUI的设计。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号