首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 15 毫秒
1.
作为中间件的软件框架,Hadoop可以对大量数据进行分布式处理。基于Hadoop的云平台参数的优化可以提高系统的处理性能。使用VMware虚拟机技术在单机上配置多个虚拟计算机节点,实现满足实验环境的Hadoop完全分布式平台,并且进行集群测试。对Hadoop平台的相关参数进行优化配置,利用TeraSort程序对参数优化前后进行了对比测试,分析了测试结果。实验表明,参数优化对Hadoop平台性能具有较大的影响。在实际工程的全局部署之前,可利用或借鉴本方法,以应用环境为基础,充分考虑硬件配置情况、集群数量和数据大小等因素,进行样本的调优实验,获得最优的云平台组合参数。  相似文献   

2.
Hadoop是google云计算理论的开源实现,作为软件系统中间件的软件框架,它可以对大量数据进行分布式处理。通过Haddop,用户可以在不了解分布式底层细节的情况下开发分布式程序,充分利用集群的威力进行高速运算和存储。通过使用VMware虚拟机技术实现在单机上配置多个虚拟计算机节点,从而进行集群测试;在虚拟节点上安装Ubuntu操作系统作为Hadoop的操作系统支持;同时,利用Xmanager软件,以及配置局域网中宿主机与虚拟机、远程控制机的网络参数,实现对虚拟节点的远程控制;在已经安装好Ubuntu操作系统的各个虚拟节点上安装Hadoop、java-JDK等软件,并进行相关的参数设置,实现在虚拟机上各个虚拟节点的Hadoop完全分布式平台。最后在Hadoop平台上,使用Hadoop软件自带的基准测试程序包对平台进行4个Hadoop的经典基准测试。同时,每个测试都会加载不同的数据量及负载进行多次实验,通过比较在不同的负载下Hadoop的基准测试结果,测试Hadoop平台的相关性能,并分析负载及数据量的变化对Hadoop平台性能的影响。  相似文献   

3.
大数据解决方案的分布式架构、海量数据存储、内存数据存储等特点给针对Hadoop的电子数据取证带来了巨大的挑战。概述了传统计算机取证的流程、要点以及在大数据取证过程中的局限性。以Hadoop为例,从Hadoop取证生态系统角度介绍了大数据解决方案的架构,分析了大数据取证的数据源、方法、流程、工具等,为调查人员进行大数据调查取证时提供参考。  相似文献   

4.
随着大数据技术的研究深入,Hadoop集群效能问题越来越引起业界的关注.如何有效地利用计算资源,使有限的资源发挥出最大的效能,成为大数据应用中一个迫切需要解决的问题.本文对Hadoop集群效能进行建模研究,建立以Hadoop集群单位时间完成的任务量与消耗能耗的比值来定义的Hadoop集群效能度量模型,并且基于该模型给出测量Hadoop集群效能所需的参数和度量方法.对不同硬件配置的Hadoop集群,选取CPU密集型和L/0密集型任务进行效能测试与评价.由测试结果可以得出机架服务器组成的Hadoop集群适合处理TB级的大规模数据,而PC组成的Hadoop集群更适合在要求不十分苛刻的场景处理10GB级及以下的中小规模数据,对生产环境中的Hadoop集群选型具有一定指导意义.  相似文献   

5.
MapReduce编程模型被看作是Hadoop的核心组件,一直以来都受到广泛的应用和研究,但针对Hadoop云平台的性能研究主要集中在配置调优和分布式算法等方面,缺乏对Hadoop加速比性能模型的理论研究.针对此问题提出了Hadoop云平台加速比性能模型,并分别在同构机群和异构机群架构上对该模型进行了分析.针对同构机群提出了3种I/O负载模型,并指出了其对加速比的影响;指出了异构机群不适合做Hadoop云平台的原因及异构性对Hadoop云平台造成的影响.这些研究对Hadoop云计算平台的搭建及如何提高Hadoop云平台加速比性能有很好的指导作用,提供了理论依据.  相似文献   

6.
为高效地处理大规模矢量空间数据,基于Hadoop的并行计算框架MapRedue,实现了一种分布式的矢量空间数据选择查询处理方法.首先,分析OGC简单要素标准与Hadoop的Key/Value数据模型,设计了可存储于Hadoop HDFS的矢量文件格式;其次,根据两阶段的过滤-精炼策略,对Map输入数据分片、选择查询处理过程及Reduce结果合并等关键步骤进行了详细阐述;最后,基于上述技术,利用Hadoop集群环境对所提出的方法进行验证,该方法具有较好的可行性和较高的效率.  相似文献   

7.
Hadoop作为处理大数据的一个优秀分布式计算框架,在企业应用非常普通。然而Hadoop集群部署需要考虑各组件的兼容性、编译问题及繁琐的组件参数配置,初学者往往耗时几天也不能部署成功。Ambari是一种支持Hadoop集群部署、监控和管理的开源工具。针对Hadoop集群部署的复杂性,提出基于Ambari工具部署Hadoop集群各组件的实践方法并讨论了快速部署的若干要点及重要步骤;通过Ambari工具,完成了Hadoop生态圈最小化集群大部分常用组件的快速部署,如HDFS、HBase、Hive、Pig、Oozie、Zookeeper、Sqoop、Spark、Storm、Kafka、Flume等;项目实践表明:利用Ambari工具能够在8 h内部署完毕Hadoop集群,相比较传统手工部署方式,Ambari工具极大提高了Hadoop集群部署的效率及成功率。  相似文献   

8.
Hadoop是一个免费的开源云平台,是允许在集群计算机上分布式处理大数据的软件框架。它是一种可靠、高效、可伸缩的云平台,很适合在实验室环境下进行模拟测试。以Hadoop为基础,借助虚拟机VMware以及Linux、ubuntu、Hadoop、java--jdk等软件,详细地介绍了单机环境下的虚拟云平台搭建过程,并给出具体的实例搭建过程。在设计实例中详细的论述了虚拟机、java、Hadoop等软件的安装、设置、测试过程。实现了在实验室环境对云平台的虚拟,并提出了在搭建试验平台时应该注意的用户权限、路径配置和使用SSH服务程序等问题。该试验平台为系统中间件和应用服务的开发提供了基础。  相似文献   

9.
在对泛在学习及Hadoop等相关理论研究的基础上,提出了基于Hadoop的泛在学习系统模型,然后对各个模块进行实现和评估,经测试具有良好的可靠性和可扩展性,为目前泛在学习领域所面临的主要挑战提供了解决方案。  相似文献   

10.
针对大数据信息服务的运算效率的问题,提出一种基于Hadoop的房产信息服务方法,设计并实现了一个房产信息服务原型系统.使用Hadoop搭建分布式文件系统,在该文件系统之上使用RCFile对数据进行存储管理.此外,在该系统中集成数据索引、数据压缩等技术,并提出一种SQL高效查询机制——SQL-JM,将SQL查询转变成MapReduce作业,提高查询效率.前端使用一些信息可视化技术,如Treemap,StreamGraph,折线图等对数据进行直观展示.用户通过浏览器登录该系统后,可以申请并使用相关房产信息服务.Hive,HadoopDB,MySQL等数据库系统的查询对比实验验证了该系统能提高查询效率.  相似文献   

11.
Hadoop是Apache基金会下的一个开源分布式计算平台,以分布式文件系统HDFS(Hadoop Distributed File System)和Map Reduce分布式计算框架为核心,为用户提供了底层细节透明的云分布式基础设施。在对Hadoop进行深入分析和研究的基础上,搭建基于Hadoop的云计算平台,并完成分布式文本文件处理任务以及对文件文本内容处理算法的改进和实现。  相似文献   

12.
随着图像数据的增加,海量的图像分类过程成为了一个耗时的过程。Hadoop是一个开源的分布式处理系统基础架构,有着优秀的海量数据处理性能。首先对Hadoop系统和编程框架进行了介绍,然后将图像分类中的海量数据处理过程在Hadoop平台上实现。与运行环境DELL powerEdge R170比较显示:基于Hadoop平台的图像分类在小图特征提取处理上Hadoop平台优势不明显,但对于大图特征提取、向量运算和kNN运算,耗时大大缩短,数据处理能力的优势明显。  相似文献   

13.
Hadoop是一个由Java语言实现的软件框架,在一个计算机集群中对海量数据进行分布式计算,这个集群可以支持上千个节点和PB级别的数据.HDFS是专门为Hadoop设计的分布式文件系统,作为Hadoop最基本的构成元素,保证内容的完整性与可用性.但是HDFS的操作界面并不友好,必须通过命令行或者IDE插件来实现对文件的操作.在研究HDFS的架构的基础上,设计实现了基于WEB的HDFS可视化文件访问系统.  相似文献   

14.
数字揭示当今社会已处于大数据时代,蕴藏着巨大的价值。利用Hadoop技术可以低成本地实现云计算平台,从而实现高校问信息资源共享。最后给出一种用Hadoop技术建设高校共享信息资源平台的模型。  相似文献   

15.
针对云计算环境下很难确定出有助于实现良好性能的Hadoop参数集的问题,设计了一种MapReduce模拟器.首先,对Hadoop的各种参数进行建模;然后,集群读取元件从集群中读取参数,从而创建模拟的Hadoop集群环境;最后,利用作业跟踪器跟踪模拟的作业,并利用任务跟踪器运行单个任务.所设计的模拟器从多角度研究Hadoop应用的性能,集中模拟Hadoop的映射和化简行为,弥补了MRPerf设计的不足.在基准测试结果和用户自定义MapReduce应用中验证了模拟器的有效性.  相似文献   

16.
基于 Hadoop 平台的相关系统得到了广泛应用。Hadoop 分布式文件系统(Hadoop distributed file system, HDFS)通过分布式的工作方式,负责处理海量文件数据。对 HDFS 而言,海量数据中的小文件存储问题制约着系统高效工作的能力。针对海量数据中小文件读写效率低的情况,提出一种基于 HBase(Hadoop database)的海量小文件高效存储方法,利用 HBase 的存储优势,将小文件直接存储于 HBase,从而有效减少元数据节点服务器(Name-Node)的负载,并对上层应用系统提供透明的访问接口。实验结果表明,该方法可以实现海量小文件的高效存储,提高 HDFS 环境下小文件的读写效率。  相似文献   

17.
分析了Hadoop云计算平台的安全需求,设计了一种基于身份的Capability(ID-CAP),并提出了一种基于IDCAP的Hadoop访问控制方案。方案设计采用了最小授权原则,实现了基于Capability的访问控制,使用户在Hadoop平台上提交的作业能以最小权限运行。实验结果表明:基于Capability的访问控制机制能有效实现在Hadoop平台上实施最小授权原则,支持平台内部相互依赖的各模块之间的身份认证,有效提高Hadoop平台的系统安全性和稳定性。  相似文献   

18.
针对Hadoop平台缺乏有效访问控制机制的问题,提出一种适用于Hadoop平台的基于属性访问控制模型H-ABAC.该模型将传统ABAC模型扩充为五元组,加入安全等级属性增加了灵活性,选择XACML为策略描述语言并提供标准化、可大规模扩展的访问控制策略.对该模型进行形式化定义,构建模型框架并详述各个模块的功能与实现,对模型的适用性和优势进行了分析.分析得出:该模型可以满足自主、细粒度以及动态授权的需求.仿真实验显示:H-ABAC可以有效控制策略数量并且减少系统的开销,所增加时间开销也在可控范围之内.  相似文献   

19.
针对海量数据的存储问题,传统方法一般是通过购置更多数量的服务器来提升计算和存储能力,存在硬件成本高,存储效率低等缺点。通过对Hadoop框架和MapReduce编程模型等云计算核心技术的分析和研究,提出了一种基于Hadoop框架的海量数据存储模型,并在此模型的基础上,设计并实现了基于Hadoop的校园云存储系统。经过实验验证,该系统有效地解决了在校园办公、教学和科研过程中遇到的海量数据存储管理问题,具有开发成本低、处理速度较快、运行稳定、易于扩展等特点。  相似文献   

20.
随着云计算环境中数据量的激增,人们急需研究在云环境下如何对大量数据进行快速有效的分析与处理。在云环境下对大量数据进行高效地排序是其中一个重要问题。基于Hadoop平台研究并实现了几种高效的排序算法,包括:Radix sort,Quicksort和Sample sort算法。对各个排序算法的执行效率、CPU资源的消耗,内存的消耗,以及处理机间的通信量进行了研究和比较分析。通过大量运行在Hadoop上的实验,发现Hadoop平台上的Sample sort相较于Radix sort和Quicksort具有排序速度快,负载均衡度高,CPU消耗低等优势。这一结果为云计算环境下设计更高效、节能的算法提供了有效的依据和基础。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号