首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 31 毫秒
1.
Hadoop是Apache基金会下的一个开源分布式计算平台,以分布式文件系统HDFS(Hadoop Distributed File System)和Map Reduce分布式计算框架为核心,为用户提供了底层细节透明的云分布式基础设施。在对Hadoop进行深入分析和研究的基础上,搭建基于Hadoop的云计算平台,并完成分布式文本文件处理任务以及对文件文本内容处理算法的改进和实现。  相似文献   

2.
Hadoop是google云计算理论的开源实现,作为软件系统中间件的软件框架,它可以对大量数据进行分布式处理。通过Haddop,用户可以在不了解分布式底层细节的情况下开发分布式程序,充分利用集群的威力进行高速运算和存储。通过使用VMware虚拟机技术实现在单机上配置多个虚拟计算机节点,从而进行集群测试;在虚拟节点上安装Ubuntu操作系统作为Hadoop的操作系统支持;同时,利用Xmanager软件,以及配置局域网中宿主机与虚拟机、远程控制机的网络参数,实现对虚拟节点的远程控制;在已经安装好Ubuntu操作系统的各个虚拟节点上安装Hadoop、java-JDK等软件,并进行相关的参数设置,实现在虚拟机上各个虚拟节点的Hadoop完全分布式平台。最后在Hadoop平台上,使用Hadoop软件自带的基准测试程序包对平台进行4个Hadoop的经典基准测试。同时,每个测试都会加载不同的数据量及负载进行多次实验,通过比较在不同的负载下Hadoop的基准测试结果,测试Hadoop平台的相关性能,并分析负载及数据量的变化对Hadoop平台性能的影响。  相似文献   

3.
为了快速、有效地对垃圾网页进行识别,提出了一种基于云计算平台的垃圾网页识别方案.在Hadoop分布式平台下构建一个基于页面内容和连接结构的支持向量机分类器,对垃圾网页进行识别,通过对数据进行分析.结果表明:垃圾网页的识别准确率较高,处理时间随着集群节点数的增加而明显减少.  相似文献   

4.
针对当前网络中视频媒体数量大、更新快、内容多、下载难,以及基于单机的视频网络爬虫系统中的处理速度慢、并发度低和下载速度慢等问题,提出了基于Hadoop框架的视频爬虫系统,为视频爬取提供了高并发度的处理和爬取速度.通过MapReduce计算模型实现网页抓取、分析、去重及下载等计算任务,Hadoop分布式文件系统(HDFS)存储各阶段计算任务的计算结果,运用多处备份机制,使得在某个结点退出时转移任务集,不影响整个系统的稳定性和有效性.实验结果表明完全分布式基于Hadoop的视频爬虫系统无论在单位时间内的视频下载速率还是爬取网页个数都明显高于未基于Hadoop的和伪分布式的视频爬虫系统.  相似文献   

5.
为高效地处理大规模矢量空间数据,基于Hadoop的并行计算框架MapRedue,实现了一种分布式的矢量空间数据选择查询处理方法.首先,分析OGC简单要素标准与Hadoop的Key/Value数据模型,设计了可存储于Hadoop HDFS的矢量文件格式;其次,根据两阶段的过滤-精炼策略,对Map输入数据分片、选择查询处理过程及Reduce结果合并等关键步骤进行了详细阐述;最后,基于上述技术,利用Hadoop集群环境对所提出的方法进行验证,该方法具有较好的可行性和较高的效率.  相似文献   

6.
李绛绛 《科技信息》2014,(1):105-106
通过对云计算平台相关技术的分析研究,结合目前智能推荐系统的应用情况,采用Hadoop、Mahout、Sqoop以及Oozie等云计算相关技术构建一个海量数据智能推荐系统。与传统的数据存储处理相比,可以提高资源的利用率,降低成本,同时也保证了速度。  相似文献   

7.
推荐方法研究是信息检索、数据挖掘和机器学习等智能信息处理领域的研究热点。分数据存储层、产生推荐层和应用层3个层次,介绍了基于Hadoop和Mahout的分布式推荐引擎的设计方案。  相似文献   

8.
基于云计算的移动商业智能系统研究   总被引:1,自引:0,他引:1  
针对传统商业智能系统在实时性、交互性和通用性上的不足,通过借鉴云计算强大的计算和存储能力,提出了一种Hadoop与关系数据库相结合的高实时移动商业智能系统解决方案.系统采用Hadoop架构替代数据仓库,实现了海量数据的分布式存储及分析计算,将高实时及高效请求交给处理效率更高的关系数据库,充分利用云计算的虚拟技术提升移动商业智能系统的海量数据处理能力;不仅降低了成本,更使得企业资源得到充分、灵活的应用,提高企业市场快速反应力与竞争力.  相似文献   

9.
基于云计算的智能电网负荷预测平台架构研究   总被引:1,自引:0,他引:1  
提出一种基于云计算的智能电网负荷预测平台架构.深入地阐述了云计算关键技术、负荷预测云架构、云平台负荷预测服务等.采用Hadoop云计算技术,对负荷预测的资源调度和计算进行虚拟云计算仿真,验证了以电力私有云为基础建立的负荷预测机制更优良.同时在云平台负荷预测服务中引入多维多级协调优化机制,对原始预测结果进行修正与协调优化,显著地提升了基于云计算的智能电网负荷预测水平.由此搭建的平台架构将为智能电网负荷预测提供广阔的思路与有力的技术支持.  相似文献   

10.
分析了Hadoop云计算平台的安全需求,设计了一种基于身份的Capability(ID-CAP),并提出了一种基于IDCAP的Hadoop访问控制方案。方案设计采用了最小授权原则,实现了基于Capability的访问控制,使用户在Hadoop平台上提交的作业能以最小权限运行。实验结果表明:基于Capability的访问控制机制能有效实现在Hadoop平台上实施最小授权原则,支持平台内部相互依赖的各模块之间的身份认证,有效提高Hadoop平台的系统安全性和稳定性。  相似文献   

11.
提出了一种应用于流程工业的分布式海量报警管理系统,利用Hadoop平台的分布式可扩展特性实现了海量报警数据的可靠存储和高效处理.在数据存储层,通过合理的列式存储结构设计,实现了海量报警数据的分布式集群存储;在信息查询层,实现了类MapReduce过程的报警管理系统分布式并行查询模型;在功能应用层,根据业务需求实现了基本的报警管理功能模块.测试结果表明,面对海量报警数据的应用场景,基于Hadoop平台的分布式海量报警管理系统比传统报警管理系统具有更为出色的性能.  相似文献   

12.
提出迭代式分割与合并的算法(IDMSVD),以改善最小平方估计的奇异值分解法在估计参数时非常耗费时间以及内存空间的问题。基于此又提出一种使用云计算Hadoop平台MapReduce实现的算法,称为分布式IDMSVD算法。实验结果显示,IDMSVD可以有效地改善SVD求最小平方解耗费运行时间与内存空间的问题,且分布式IDMSVD算法可进一步改善IDMSVD的运行时间。  相似文献   

13.
王润华 《科技信息》2009,(15):60-60
当数据存储和计算遇到瓶颈时,分布式技术相对于传统的向上扩展技术在伸缩性和成本上都具有巨大的优势。本文介绍了开源的分布式编程框架Hadoop,并通过具体的代码说明了基于Hadoop集群的分布式日志分析系统的工作方式。  相似文献   

14.
.NET没有专门的查询关键字输入智能提示控件.研究了.NET环境下的查询关键字输入智能提示自定义控件的实现原理和方法.在此基础上设计了一款能够进行查询输入智能提示的自定义控件.它不仅可以进行西文输入的智能提示,还可以进行汉字输入的智能提示,具有很好的用户操作体验.无论是理论方法还是实现的控件都可以作为一般.NET应用程序开发的参考.  相似文献   

15.
传统决策树在中小型数据集的预测分类上表现优秀,但在大数据集的处理上仍然存在效率低下、准确率较低等问题.为了适应大数据集环境,国内外学术界和工业界提出了将决策树与分布式处理平台相结合的分布式决策树算法,面向大数据处理的Hadoop和Spark分布式计算系统的出现,为研究分布式决策树算法提供了新的契机.为此,面向以基于大数据系统的分布式决策树算法为研究对象,从决策树基础算法、大数据平台的分布式并行机制和大数据平台下分布式决策树实现的三个方面进行剖析,以呈现Hadoop和Spark平台下的分布式决策树算法当前研究现状,并分析未来分布式决策树的研究方向.  相似文献   

16.
随着云计算环境中数据量的激增,人们急需研究在云环境下如何对大量数据进行快速有效的分析与处理。在云环境下对大量数据进行高效地排序是其中一个重要问题。基于Hadoop平台研究并实现了几种高效的排序算法,包括:Radix sort,Quicksort和Sample sort算法。对各个排序算法的执行效率、CPU资源的消耗,内存的消耗,以及处理机间的通信量进行了研究和比较分析。通过大量运行在Hadoop上的实验,发现Hadoop平台上的Sample sort相较于Radix sort和Quicksort具有排序速度快,负载均衡度高,CPU消耗低等优势。这一结果为云计算环境下设计更高效、节能的算法提供了有效的依据和基础。  相似文献   

17.
随着云计算和大数据的快速发展及应用,信息化建设在高校也呈现了新的生机和挑战.然而数字资源作为信息化建设的重要组成部分,我们需要用更高更新的角度去看待高职院校数字化的实训基地资源建设,并结合Hadoop分布式技术进行探索、部署和实施.本文阐述了数字资源的概念及重要性,分析了数字资源的现状及建设的必要性,结合Hadoop关键技术分析实训基地数字资源分布式的应用研究.  相似文献   

18.
针对海量数据的存储问题,传统方法一般是通过购置更多数量的服务器来提升计算和存储能力,存在硬件成本高,存储效率低等缺点。通过对Hadoop框架和MapReduce编程模型等云计算核心技术的分析和研究,提出了一种基于Hadoop框架的海量数据存储模型,并在此模型的基础上,设计并实现了基于Hadoop的校园云存储系统。经过实验验证,该系统有效地解决了在校园办公、教学和科研过程中遇到的海量数据存储管理问题,具有开发成本低、处理速度较快、运行稳定、易于扩展等特点。  相似文献   

19.
为了使金融大数据产生业务价值,提高金融信息化应用水平,针对金融行业实时海量信息存取困难的问题,提出一种构建用于金融行业的云平台分布式架构。通过金融系统监控信息的存储分析,利用分布式文件系统和并行编程模型,提出对应用集群和虚拟资源的管理方案。实验中建立了云集群分布式处理平台,通过金融大数据量查询性能结果表明,基于Hadoop的金融智能云平台分布式架构的合理性和有效性。  相似文献   

20.
随着现代数据中心云计算规模日益增长,云计算平台的智能运维管理面临较大挑战,尤其在实时监控领域方面。首先对云计算监控技术进行了深入分析和研究,然后在开源云计算平台Hadoop环境下,将Ganglia和Nagois两种开源监控软件进行整合,并利用移动飞信来实现对云计算平台的实时监控。实验结果表明,该系统可对云计算平台内主机和服务以及运行环境的各项性能指标进行全方位监控,实现对故障的实时预警和报警,使得管理人员能准确定位、实时处理云平台异常情况,从而提高了云平台的服务质量,有较好的应用价值。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号