首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到17条相似文献,搜索用时 46 毫秒
1.
分布式网络环境中基于MapReduce的WordCount实现   总被引:1,自引:0,他引:1  
基于Hadoop的MapReduce分布计算模型,在伪分布模式下以Word Count实现为例,研究了MapReduce系统架构及运行机制、编程模型以及它作业的生命周期,实现了基于MapReduce的文本文字计数功能。  相似文献   

2.
本文从减少I/O时间的角度出发,结合云计算Hadoop平台的Map Reduce模型,提出了一种基于Map Reduce的关联规则挖掘算法.算法采用幂集计算候选项集,采用Map Reduce模型在多个节点上并行找出所有频繁项集,只需要扫描事务数据库1次.实验结果表明:在事务的平均项长较小的情况下,算法具有很好的加速比和数据规模增长性.  相似文献   

3.
基于Hadoop建立云计算系统   总被引:1,自引:0,他引:1  
云计算是2007年底正式提出的一个新概念,本文分析了云计算的特征和Hadoop的作用地位.针对Hadoop这样一个在集群上运行大型数据库处理应用程序的开放式源代码框架进行了云计算平台的实现,并进行了实验验证.  相似文献   

4.
通过搭建Hadoop平台,将MapReduce编程思想应用到中文分词的处理过程中,使中文分词技术在云计算环境中实现。研究可以在保证原来分词准确率的基础上,显著提高中文分词的处理速度。  相似文献   

5.
Hadoop平台下MapReduce模型的数据分配策略研究   总被引:2,自引:0,他引:2  
针对Hadoop开源云计算平台下MapReduce并行编程模型中间数据分配不均衡的问题,提出基于抽样的改进型MapReduce模型,即SMR(Sample MapReduce)模型.SMR模型采用MapReduce作业方式对各分块数据集进行并行抽样,基于抽样结果,利用LAB(leen and balance)均衡算法对Map端输出的中间数据进行均衡分配,以改善Reduce端处理数据负载不均衡问题.实验结果表明:改进型MapReduce模型可以有效减少作业运行时间,Reduce端输入数据达到负载均衡.  相似文献   

6.
针对基于GPU和MPI并行的支持向量机(SVM)算法不适合于云计算环境,设计了一种基于多级SVM的并行支持向量机模型,实现了云计算环境下的序列最小优化(SMO)的并行算法。该算法通过MapReduce系统将大规模训练数据集划分为若干小训练集,再由这些小训练集开发多级的SVM,最后收集每一个SVM最优超平面附近的样本数据来训练另一个新的SVM。实验结果表明,该算法在时间消耗与分类正确率等综合方面比单机算法和传统并行算法获得更好的效果。  相似文献   

7.
在对HITS算法和基于MapReduce编程模型的云计算框架Hadoop的研究基础上,利用Hadoop来重新设计并实现HITS算法.同时,在实验中分析了不同blocksize和集群规模对算法执行效率的影响.实验表明:当blocksize过大时,由于没有充分利用集群的并行特性,算法效率逐渐降低,而适当扩大集群规模,算法运行效率会逐渐提高.  相似文献   

8.
针对当前网络中视频媒体数量大、更新快、内容多、下载难,以及基于单机的视频网络爬虫系统中的处理速度慢、并发度低和下载速度慢等问题,提出了基于Hadoop框架的视频爬虫系统,为视频爬取提供了高并发度的处理和爬取速度.通过MapReduce计算模型实现网页抓取、分析、去重及下载等计算任务,Hadoop分布式文件系统(HDFS)存储各阶段计算任务的计算结果,运用多处备份机制,使得在某个结点退出时转移任务集,不影响整个系统的稳定性和有效性.实验结果表明完全分布式基于Hadoop的视频爬虫系统无论在单位时间内的视频下载速率还是爬取网页个数都明显高于未基于Hadoop的和伪分布式的视频爬虫系统.  相似文献   

9.
云计算及其架构模式   总被引:2,自引:0,他引:2  
为了构建有效、稳定的云计算平台环境并对其应用性能进行研究,采用理论分析和实践设计的方法,研究了云计算的关键技术,包括云数据中心串联、云数据存储管理技术和云编程模型,提出了一个通用的云计算架构模型,实现了一个基于Hadoop的实际云平台。研究结果表明:该通用架构模型与NIST模型具有良好的一致性,构建的云平台具有较好的分布式计算性能。该成果对云计算架构模型的研究具有一定的理论指导意义和实际应用价值。  相似文献   

10.
云计算框架大大改进了并行算法的实现难度,但是大部分算法有其局限性.介绍了MapReduce(映射化简)的基本实现原理和调度模型的缺陷,提出了基于支持向量机的的MapReduce进化算法,并给出了基本模型及实现.运用Hadoop云计算平台进行了仿真验证,实验结果表明,基于支持向量机的MapReduce计算框架在候选云节点的调度分配的准确性上有明显提高,并且加快了数据迭代的效率.  相似文献   

11.
在海量数据的关联规则数据挖掘中,采用并行计算是非常必要的;针对当前的关联规则算法,运用并行算法的思想,结合云计算环境下的Hadoop架构,提出了Hadoop下的并行关联规则算法的设计,最后实验表明,该算法能处理节点失效,并且能实现节点负载均衡。  相似文献   

12.
MapReduce is a very popular parallel programming model for cloud computing platforms, and has become an effective method for processing massive data by using a cluster of computers. X-to-MapReduce (X is a program language) translator is a possible solution to help traditional programmers easily deploy an application to cloud systems through translating sequential codes to MapReduce codes. Recently, some SQL-to-MapReduce translators emerge to translate SQL-like queries to MapReduce codes and have good performance in cloud systems. However, SQL-to-MapReduce translators mainly focus on SQL-like queries, but not on numerical computation. Matlab is a high-level language and interactive environment for numerical computation, visualization, and programming, which is very popular in engineering. We propose and develop a simple Matlab-to-MapReduce translator for cloud computing, called M2M, for basic numerical computations. M2M can translate a Matlab code with up to 100 commands to MapReduce code in few seconds, which may cost a proficient Hadoop MapReduce programmer some days on coding so many commands. In addition, M2M can also recognize the dependency between complex commands, which is always confusing during hand coding. We implemented M2M with evaluation for Matlab commands on a cluster. Several common commands are used in our experiments. The results show that M2M is comparable in performance with hand-coded programs.  相似文献   

13.
针对云计算环境下云存储对数据的处理要求,设计一种以ORM(Object Relational Mapping)为基础的Hbase 数据持久处理方法.主要利用JPA(Java Persistence API)的annotations来配置Hbase库表后,对存储于Hbase的数据进行持久操作,以达到对底层HbaseAPI抽象,也可以实现从多云存储上集成与提取数据.最后测试表明能有效为研发人员节约开发时间和降低开发成本.  相似文献   

14.
根据3D点云数据处理计算特点,按照BSP模型的技术思想,建立了3D点云BSP并行计算模型。讨论了HAMA框架下的3D点云BSP并行计算模型的实现方法,构建了一个由普通PC组成的HAMA计算集群。以3D点模型构建计算为例,给出了一种3D点云数据处理BSP算法设计方法。实例的计算结果表明:BSP并行计算方法能高效地完成3D点模型构建计算,与其它计算方法相比,计算效率有所提高。  相似文献   

15.
当处理分布式、大规模的服务选择时,传统服务选择方法存在着效率不高和全局Qo S性能低下的问题。基于Map Reduce框架,设计了一种云环境下的海量服务选择方法以解决此问题。首先,基于Map Reduce框架,利用Skyline算法,筛选海量候选服务,生成Skyline服务库;其次,基于迭代式Map Reduce框架,运用多目标模拟退火算法,从所生成的Skyline服务库中优选Skyline服务,产生一组Pareto最优的组合服务;最后,依据用户的个性化和多样性需求,执行Top-k查询,优选出满足用户偏好的k个组合服务。该方法适应于具有分布式环境、高维Qo S的海量服务选择,能快速返回组合服务,且其全局Qo S较优。  相似文献   

16.
利用Hadoop框架给出了一种移动学习模型和具体实现.描述了总体系统的设计原理、关键技术、系统模型,并对主要的移动学习模型实现及Hadoop实施进行了详细说明,同时就关键问题进行了分析.最后针对实现移动学习系统做了运行测试与运行情况评估.  相似文献   

17.
云计算模型在铁路大规模数据处理中的应用   总被引:1,自引:0,他引:1  
对铁路行业的计算资源、数据处理进行了特征分析.探讨了云计算模型中的虚拟化技术在铁路计算资源整合及MapReduce编程模型在大规模数据处理中的应用模式.采用Hadoop开源平台和Intel的虚拟化管理平台Tashi,提出和实现了基于云计算技术的铁路数据处理框架模型,并通过大规模的货票数据处理实例验证了框架模型的可扩展性和高效性.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号