首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 156 毫秒
1.
Hadoop是google云计算理论的开源实现,作为软件系统中间件的软件框架,它可以对大量数据进行分布式处理。通过Haddop,用户可以在不了解分布式底层细节的情况下开发分布式程序,充分利用集群的威力进行高速运算和存储。通过使用VMware虚拟机技术实现在单机上配置多个虚拟计算机节点,从而进行集群测试;在虚拟节点上安装Ubuntu操作系统作为Hadoop的操作系统支持;同时,利用Xmanager软件,以及配置局域网中宿主机与虚拟机、远程控制机的网络参数,实现对虚拟节点的远程控制;在已经安装好Ubuntu操作系统的各个虚拟节点上安装Hadoop、java-JDK等软件,并进行相关的参数设置,实现在虚拟机上各个虚拟节点的Hadoop完全分布式平台。最后在Hadoop平台上,使用Hadoop软件自带的基准测试程序包对平台进行4个Hadoop的经典基准测试。同时,每个测试都会加载不同的数据量及负载进行多次实验,通过比较在不同的负载下Hadoop的基准测试结果,测试Hadoop平台的相关性能,并分析负载及数据量的变化对Hadoop平台性能的影响。  相似文献   

2.
Hadoop是Apache基金会下的一个开源分布式计算平台,以分布式文件系统HDFS(Hadoop Distributed File System)和Map Reduce分布式计算框架为核心,为用户提供了底层细节透明的云分布式基础设施。在对Hadoop进行深入分析和研究的基础上,搭建基于Hadoop的云计算平台,并完成分布式文本文件处理任务以及对文件文本内容处理算法的改进和实现。  相似文献   

3.
作为中间件的软件框架,Hadoop可以对大量数据进行分布式处理。基于Hadoop的云平台参数的优化可以提高系统的处理性能。使用VMware虚拟机技术在单机上配置多个虚拟计算机节点,实现满足实验环境的Hadoop完全分布式平台,并且进行集群测试。对Hadoop平台的相关参数进行优化配置,利用TeraSort程序对参数优化前后进行了对比测试,分析了测试结果。实验表明,参数优化对Hadoop平台性能具有较大的影响。在实际工程的全局部署之前,可利用或借鉴本方法,以应用环境为基础,充分考虑硬件配置情况、集群数量和数据大小等因素,进行样本的调优实验,获得最优的云平台组合参数。  相似文献   

4.
云计算是指基于互联网、通过虚拟化方式共享IT资源的新型计算模式。Hadoop以Hadoop分布式文件系统HDFS(Hadoop Distributed File System)和Map Reduce分布式计算框架为核心,为用户提供了底层细节透明的云分布式基础设施。系统研究的主要内容在基于Hadoop的云计算平台上实现通过检索不同文件系统下的输入接口,输入内容的分布式统计结果,智能提示和匹配后续的内容,完成智能输入提示功能的算法研究与实现工作。  相似文献   

5.
随着云计算和大数据的快速发展及应用,信息化建设在高校也呈现了新的生机和挑战.然而数字资源作为信息化建设的重要组成部分,我们需要用更高更新的角度去看待高职院校数字化的实训基地资源建设,并结合Hadoop分布式技术进行探索、部署和实施.本文阐述了数字资源的概念及重要性,分析了数字资源的现状及建设的必要性,结合Hadoop关键技术分析实训基地数字资源分布式的应用研究.  相似文献   

6.
【目的】对现有的下一代测序(Next Generation Sequencing,NGS)纠错算法和工具进行分析,提出基于Hadoop平台的纠错算法,以解决大数据处理中计算机内存不足和运行时间长的问题,提升纠错性能。【方法】使用特定的数据对现有的基于K-spectrum的纠错算法进行测试,对各纠错工具的运行时间、内存峰值和纠错结果进行比较来衡量纠错工具的性能。在此基础上提出Hadoop分布式并行纠错算法(Parallel algorithm),并与串行程序、Lighter和Racer进行比较,分析分布式并行实现的可行性。【结果】现有的基于Kspectrum的纠错工具普遍存在较大的内存消耗现象,其中Racer和Sga的纠错效果较好。而Hadoop分布式并行纠错算法对计算机单机内存的消耗较低,当数据量超过一定值时,并行分布式程序的运算时间比串行单机程序明显减少。【结论】本研究提出的Hadoop分布式并行纠错算法不仅降低了内存消耗,而且提高了运算性能,更有利于大规模基因数据的分析处理。  相似文献   

7.
为高效地处理大规模矢量空间数据,基于Hadoop的并行计算框架MapRedue,实现了一种分布式的矢量空间数据选择查询处理方法.首先,分析OGC简单要素标准与Hadoop的Key/Value数据模型,设计了可存储于Hadoop HDFS的矢量文件格式;其次,根据两阶段的过滤-精炼策略,对Map输入数据分片、选择查询处理过程及Reduce结果合并等关键步骤进行了详细阐述;最后,基于上述技术,利用Hadoop集群环境对所提出的方法进行验证,该方法具有较好的可行性和较高的效率.  相似文献   

8.
随着图像数据的增加,海量的图像分类过程成为了一个耗时的过程。Hadoop是一个开源的分布式处理系统基础架构,有着优秀的海量数据处理性能。首先对Hadoop系统和编程框架进行了介绍,然后将图像分类中的海量数据处理过程在Hadoop平台上实现。与运行环境DELL powerEdge R170比较显示:基于Hadoop平台的图像分类在小图特征提取处理上Hadoop平台优势不明显,但对于大图特征提取、向量运算和kNN运算,耗时大大缩短,数据处理能力的优势明显。  相似文献   

9.
提出了一种应用于流程工业的分布式海量报警管理系统,利用Hadoop平台的分布式可扩展特性实现了海量报警数据的可靠存储和高效处理.在数据存储层,通过合理的列式存储结构设计,实现了海量报警数据的分布式集群存储;在信息查询层,实现了类MapReduce过程的报警管理系统分布式并行查询模型;在功能应用层,根据业务需求实现了基本的报警管理功能模块.测试结果表明,面对海量报警数据的应用场景,基于Hadoop平台的分布式海量报警管理系统比传统报警管理系统具有更为出色的性能.  相似文献   

10.
为了加快海量图像检索速度,提出基于Hadoop分布式平台的海量图像检索系统。首先提取待检索图像的特征,然后通过Hadoop分布式平台下图像特征匹配,根据匹配结果得到图像检索结果,最后通过仿真实验分析了图像检索速度和效率,结果表明,该文模型大幅度提升了海量图像检索速度,比对比系统获得更优的图像检索效率,具有更高的实际实用价值。  相似文献   

11.
传统决策树在中小型数据集的预测分类上表现优秀,但在大数据集的处理上仍然存在效率低下、准确率较低等问题.为了适应大数据集环境,国内外学术界和工业界提出了将决策树与分布式处理平台相结合的分布式决策树算法,面向大数据处理的Hadoop和Spark分布式计算系统的出现,为研究分布式决策树算法提供了新的契机.为此,面向以基于大数据系统的分布式决策树算法为研究对象,从决策树基础算法、大数据平台的分布式并行机制和大数据平台下分布式决策树实现的三个方面进行剖析,以呈现Hadoop和Spark平台下的分布式决策树算法当前研究现状,并分析未来分布式决策树的研究方向.  相似文献   

12.
云存储是分布式存储技术与虚拟化技术结合的产物,是分布式存储技术的最新发展.云存储意味着存储可以作为一种服务,通过互联网提供给用户.相对于当前主从(Master/Slave)结构的GFS(Google File System),HDFS(Hadoop Distributed File System),Sector,KFS...  相似文献   

13.
MapReduce编程模型被看作是Hadoop的核心组件,一直以来都受到广泛的应用和研究,但针对Hadoop云平台的性能研究主要集中在配置调优和分布式算法等方面,缺乏对Hadoop加速比性能模型的理论研究.针对此问题提出了Hadoop云平台加速比性能模型,并分别在同构机群和异构机群架构上对该模型进行了分析.针对同构机群提出了3种I/O负载模型,并指出了其对加速比的影响;指出了异构机群不适合做Hadoop云平台的原因及异构性对Hadoop云平台造成的影响.这些研究对Hadoop云计算平台的搭建及如何提高Hadoop云平台加速比性能有很好的指导作用,提供了理论依据.  相似文献   

14.
针对当前网络中视频媒体数量大、更新快、内容多、下载难,以及基于单机的视频网络爬虫系统中的处理速度慢、并发度低和下载速度慢等问题,提出了基于Hadoop框架的视频爬虫系统,为视频爬取提供了高并发度的处理和爬取速度.通过MapReduce计算模型实现网页抓取、分析、去重及下载等计算任务,Hadoop分布式文件系统(HDFS)存储各阶段计算任务的计算结果,运用多处备份机制,使得在某个结点退出时转移任务集,不影响整个系统的稳定性和有效性.实验结果表明完全分布式基于Hadoop的视频爬虫系统无论在单位时间内的视频下载速率还是爬取网页个数都明显高于未基于Hadoop的和伪分布式的视频爬虫系统.  相似文献   

15.
随着大数据时代的到来,聚类分析算法将面临如数据量巨大、数据维数增加等挑战,分布式处理是解决这类问题的方法之一。本研究将ROCK算法与Hadoop平台相结合,按照分布式处理原则,通过计算机集群模式去处理大规模的多样性数据。实验证明,在Hadoop平台下的ROCK聚类算法很大程度上提升了对高维数据进行聚类的能力。  相似文献   

16.
基于云计算的移动商业智能系统研究   总被引:1,自引:0,他引:1  
针对传统商业智能系统在实时性、交互性和通用性上的不足,通过借鉴云计算强大的计算和存储能力,提出了一种Hadoop与关系数据库相结合的高实时移动商业智能系统解决方案.系统采用Hadoop架构替代数据仓库,实现了海量数据的分布式存储及分析计算,将高实时及高效请求交给处理效率更高的关系数据库,充分利用云计算的虚拟技术提升移动商业智能系统的海量数据处理能力;不仅降低了成本,更使得企业资源得到充分、灵活的应用,提高企业市场快速反应力与竞争力.  相似文献   

17.
从大规模数据库中挖掘非显著性特征数据时,容易产生大量数据通信和中间数据,存在大量交集操作,影响挖掘实时性。为此,提出一种新的基于Hadoop分布式架构的非显著性特征数据实时挖掘方法。对数据显著度进行检测,提取非显著性特征;搭建Hadoop分布式架构硬件结构,按照非显著性特征数据挖掘的特性和功能,建立Hadoop分布式架构非显著性特征数据挖掘软件架构;包括交互层、应用层、非显著性特征数据挖掘层和分布式计算层。把大数据集分割为若干数据块,将数据块分配至所有计算节点,依据非显著性特征进行并行计算,将map阶段的本地输出结果合并在一起,降低节点间数据交换量。通过reduce函数把所有计算节点的临时文件合并为垂直项集,求出项支持度。当无更多频繁项集的数据输出时,即可得到非显著性特征数据。实验结果表明,所提方法挖掘结果可靠,实时性强。  相似文献   

18.
大数据解决方案的分布式架构、海量数据存储、内存数据存储等特点给针对Hadoop的电子数据取证带来了巨大的挑战。概述了传统计算机取证的流程、要点以及在大数据取证过程中的局限性。以Hadoop为例,从Hadoop取证生态系统角度介绍了大数据解决方案的架构,分析了大数据取证的数据源、方法、流程、工具等,为调查人员进行大数据调查取证时提供参考。  相似文献   

19.
日志数据记录着丰富的信息,具有较高的实用价值,但在当今大数据时代环境下,数据量的陡增为日志数据的处理带来了挑战.为了有效地解决海量日志数据处理面临的瓶颈问题,本文整合Hadoop和Storm分布式框架,构建一种融合了实时计算与离线计算的分布式日志实时处理系统.系统架构由数据服务层、业务逻辑层和Web展示层组成,数据服务层使用Flume实时采集日志数据,并分别采用Kafka与HBase完成实时日志流数据的缓冲和系统数据的持久化存储;业务逻辑层利用Storm对实时日志流数据进行实时分析,并使用Hadoop的计算引擎MapReduce结合数据挖掘技术完成对海量历史日志数据的离线分析,离线分析的结果为实时分析提供支持、参考;Web展示层负责日志数据及其分析结果的展示.实验结果表明,系统能有效地解决日志数据的采集存储、实时日志流数据的实时分析和历史日志数据的离线分析等问题,并成功地融合了Hadoop与Storm各自的优势,为日志数据的采集和分析系统的构建提供新的技术参考.  相似文献   

20.
从大规模数据库中挖掘非显著性特征数据时,容易产生大量数据通信和中间数据,存在大量交集操作,影响挖掘实时性。为此,提出一种新的基于Hadoop分布式架构的非显著性特征数据实时挖掘方法。对数据显著度进行检测,提取非显著性特征;搭建Hadoop分布式架构硬件结构,按照非显著性特征数据挖掘的特性和功能,建立Hadoop分布式架构非显著性特征数据挖掘软件架构;包括交互层、应用层、非显著性特征数据挖掘层和分布式计算层。把大数据集分割为若干数据块,将数据块分配至所有计算节点,依据非显著性特征进行并行计算,将map阶段的本地输出结果合并在一起,降低节点间数据交换量。通过reduce函数把所有计算节点的临时文件合并为垂直项集,求出项支持度。当无更多频繁项集的数据输出时,即可得到非显著性特征数据。实验结果表明,所提方法挖掘结果可靠,实时性强。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号