首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 93 毫秒
1.
以云计算和大数据技术为理论基础,构建了一个具有"产学研"功能的网络信息协同创新平台,对该平台的"云"架构和功能模块进行了叙述,重点阐述了Hadoop云平台的工作模式。针对大数据环境下数据的稀疏性及扩展性等问题,提出了利用用户隐性行为数据在Hadoop平台上实施协同过滤算法,实现智能推荐,从而有效的提高了算法的执行效率。  相似文献   

2.
数据资源建设是高校信息化建设的重要组成部分,构建大数据管理服务平台将为高校大数据应用分析场景建设,提供数据、管理、服务、技术等多层面的有效支撑。以DAMA数据管理服务体系方法论作为理论依据,以教育部发布的《JYT1002_教育管理基础信息》、《JYT1003_教育行政管理信息》、《JYT1006_高等学校管理信息》等标准文件内容作为参考,结合高校数据特点,在传统高校数据共享平台相关技术的基础上将Hadoop框架体系、Spark技术、Elasticsearch数据引擎技术等大数据技术进行深度融合,提出一种数据统一存储、统一管理、统一处理、统一服务的一站式的大数据服务平台的建设思路,为高校大数据平台建设提供一个参考依据。  相似文献   

3.
为提高信息获取的定向性和准确性, 适应大数据时代数据处理需求, 以高校信息平台为应用背景, 设计并实现了基于Hadoop 云平台的个性化信息定制系统。该系统利用Mahout 培养Bayes 分类器实现数据挖掘算法的分布式, 将分析处理结果存储于Hbase 数据库中, 并在移动终端上开发了基于Android 的客户端, 将移动终端与分布式信息处理平台互连, 完成信息推送。测试结果表明, 该系统可以为用户提供个性化定制服务, 方便用户随时查阅定制信息, 提高信息服务的针对性和互动性, 满足用户日益增长的网络访问需求。  相似文献   

4.
Hadoop是google云计算理论的开源实现,作为软件系统中间件的软件框架,它可以对大量数据进行分布式处理。通过Haddop,用户可以在不了解分布式底层细节的情况下开发分布式程序,充分利用集群的威力进行高速运算和存储。通过使用VMware虚拟机技术实现在单机上配置多个虚拟计算机节点,从而进行集群测试;在虚拟节点上安装Ubuntu操作系统作为Hadoop的操作系统支持;同时,利用Xmanager软件,以及配置局域网中宿主机与虚拟机、远程控制机的网络参数,实现对虚拟节点的远程控制;在已经安装好Ubuntu操作系统的各个虚拟节点上安装Hadoop、java-JDK等软件,并进行相关的参数设置,实现在虚拟机上各个虚拟节点的Hadoop完全分布式平台。最后在Hadoop平台上,使用Hadoop软件自带的基准测试程序包对平台进行4个Hadoop的经典基准测试。同时,每个测试都会加载不同的数据量及负载进行多次实验,通过比较在不同的负载下Hadoop的基准测试结果,测试Hadoop平台的相关性能,并分析负载及数据量的变化对Hadoop平台性能的影响。  相似文献   

5.
分析了Hadoop云计算平台的安全需求,设计了一种基于身份的Capability(ID-CAP),并提出了一种基于IDCAP的Hadoop访问控制方案。方案设计采用了最小授权原则,实现了基于Capability的访问控制,使用户在Hadoop平台上提交的作业能以最小权限运行。实验结果表明:基于Capability的访问控制机制能有效实现在Hadoop平台上实施最小授权原则,支持平台内部相互依赖的各模块之间的身份认证,有效提高Hadoop平台的系统安全性和稳定性。  相似文献   

6.
针对当前大数据时代的背景,信息数据的海量化现象与日俱增,为了实现数据搜索的低成本、高效率,对Google搜索引擎的PageRank算法进行了综合性的研究分析,分别介绍了MapReduce框架和Hadoop实现平台,在此基础上,在Hadoop平台详细分析了基于MapReduce的PageRank算法的并行实现过程,以实现海量数据的并行处理,极大地提高了搜索引擎的性能.  相似文献   

7.
作为中间件的软件框架,Hadoop可以对大量数据进行分布式处理。基于Hadoop的云平台参数的优化可以提高系统的处理性能。使用VMware虚拟机技术在单机上配置多个虚拟计算机节点,实现满足实验环境的Hadoop完全分布式平台,并且进行集群测试。对Hadoop平台的相关参数进行优化配置,利用TeraSort程序对参数优化前后进行了对比测试,分析了测试结果。实验表明,参数优化对Hadoop平台性能具有较大的影响。在实际工程的全局部署之前,可利用或借鉴本方法,以应用环境为基础,充分考虑硬件配置情况、集群数量和数据大小等因素,进行样本的调优实验,获得最优的云平台组合参数。  相似文献   

8.
Hadoop是Apache基金会下的一个开源分布式计算平台,以分布式文件系统HDFS(Hadoop Distributed File System)和Map Reduce分布式计算框架为核心,为用户提供了底层细节透明的云分布式基础设施。在对Hadoop进行深入分析和研究的基础上,搭建基于Hadoop的云计算平台,并完成分布式文本文件处理任务以及对文件文本内容处理算法的改进和实现。  相似文献   

9.
随着图像数据的增加,海量的图像分类过程成为了一个耗时的过程。Hadoop是一个开源的分布式处理系统基础架构,有着优秀的海量数据处理性能。首先对Hadoop系统和编程框架进行了介绍,然后将图像分类中的海量数据处理过程在Hadoop平台上实现。与运行环境DELL powerEdge R170比较显示:基于Hadoop平台的图像分类在小图特征提取处理上Hadoop平台优势不明显,但对于大图特征提取、向量运算和kNN运算,耗时大大缩短,数据处理能力的优势明显。  相似文献   

10.
大数据时代的到来伴随着海量数据,进而使得筛选出具有价值的信息成为大数据被广泛应用的核心步骤.在此情况下Apache Hadoop顺势而生,其通过简化数据密集、高度并行的分布式应用来应对大数据带来的挑战.由于目前基于Hadoop的大数据平台在多领域普遍使用,从而平台搭建成为进行大数据探索的第一步.而很多文章介绍的平台搭建是在虚拟机中完成,与真实情况存在相应差异.本文讨论以真实集群为基础搭建Hadoop平台的原因,Hadoop集群的强大功能,搭建平台所需设备、环境、安装、设置及测试过程.  相似文献   

11.
提出了一种应用于流程工业的分布式海量报警管理系统,利用Hadoop平台的分布式可扩展特性实现了海量报警数据的可靠存储和高效处理.在数据存储层,通过合理的列式存储结构设计,实现了海量报警数据的分布式集群存储;在信息查询层,实现了类MapReduce过程的报警管理系统分布式并行查询模型;在功能应用层,根据业务需求实现了基本的报警管理功能模块.测试结果表明,面对海量报警数据的应用场景,基于Hadoop平台的分布式海量报警管理系统比传统报警管理系统具有更为出色的性能.  相似文献   

12.
在长期的地质调查工作中,形成了海量的地质调查成果资料,但因地质资料分散式管理,使得资料信息共享、综合利用的机制和手段以及在线业务服务能力相对薄弱.分析了Hadoop集群平台的运行机理以及PostgreSQL数据库在地学空间信息系统中独特的优越性,并基于Hadoop和PostgreSQL大数据集群化平台,阐述了地质资料信息服务集群机制与服务模式.  相似文献   

13.
随着互联网的发展和数字图像获取技术的进步,传统图像分类算法在处理海量数字图像时,面临耗时过多、文件系统及处理架构落后的问题.针对这一问题,利用主流的Hadoop开源分布式计算平台,引入视觉词袋模型实现对图像的表示,并对模型的图像直方图化过程做出改进,提出一种自适应的特征分配方法,最后采用易于并行的随机森林算法作为分类器,以充分利用Hadoop平台强大的分布式计算能力.实验显示,基于Hadoop平台的图像分类方法在处理大规模数据集时较单机环境能有效减少时间消耗,同时具有良好的分类效果.  相似文献   

14.
Hadoop是一个免费的开源云平台,是允许在集群计算机上分布式处理大数据的软件框架。它是一种可靠、高效、可伸缩的云平台,很适合在实验室环境下进行模拟测试。以Hadoop为基础,借助虚拟机VMware以及Linux、ubuntu、Hadoop、java--jdk等软件,详细地介绍了单机环境下的虚拟云平台搭建过程,并给出具体的实例搭建过程。在设计实例中详细的论述了虚拟机、java、Hadoop等软件的安装、设置、测试过程。实现了在实验室环境对云平台的虚拟,并提出了在搭建试验平台时应该注意的用户权限、路径配置和使用SSH服务程序等问题。该试验平台为系统中间件和应用服务的开发提供了基础。  相似文献   

15.
通过搭建Hadoop平台,将MapReduce编程思想应用到中文分词的处理过程中,使中文分词技术在云计算环境中实现。研究可以在保证原来分词准确率的基础上,显著提高中文分词的处理速度。  相似文献   

16.
介绍开源Hadoop云平台的一些主要特点及其数据存储的优势.通过把云平台自身特点与地理系信息系统的构架设计相结合,提出了基于Hadoop云平台的地理信息系统构架,使地理信息系统具有云的相关特性.该地理信息系统能解决地理信息数据量大、种类繁多的数据在计算等方面有一定的优势,从而大大提高了云GIS系统的效率.  相似文献   

17.
MapReduce编程模型被看作是Hadoop的核心组件,一直以来都受到广泛的应用和研究,但针对Hadoop云平台的性能研究主要集中在配置调优和分布式算法等方面,缺乏对Hadoop加速比性能模型的理论研究.针对此问题提出了Hadoop云平台加速比性能模型,并分别在同构机群和异构机群架构上对该模型进行了分析.针对同构机群提出了3种I/O负载模型,并指出了其对加速比的影响;指出了异构机群不适合做Hadoop云平台的原因及异构性对Hadoop云平台造成的影响.这些研究对Hadoop云计算平台的搭建及如何提高Hadoop云平台加速比性能有很好的指导作用,提供了理论依据.  相似文献   

18.
通过对移动存储进行需求分析,提出了一种基于Hadoop的移动云存储系统.移动云存储系统通过手机客户端与服务器端和云端进行数据交换,达到访问云端数据和加密存储数据的目的.本系统实现了基于Android移动手持终端上的文件移动云存储,达到了实时查看和分享数据的目的;对用户信息采用对称加密算法,保证了文件存储过程中用户信息的安全;利用Hadoop云管理平台和AES文件加密算法,保证了在存储在云端文件的安全.  相似文献   

19.
Hadoop平台是一个开源的计算机集群系统,它能快速处理海量的数据,且具备低成本、高效率、高扩展、高可靠、高容错的优势.基于Hadoop平台探索了数据挖掘算法的应用,详细阐述了Hadoop平台的基本组成原理以及运行机制,探索了相关的数据挖掘算法.基于MapReduce的K-Modes聚类数据挖掘算法具备较好的自适应性,利用簇众数来取代中心节点,提高了算法效率;基于Hadoop平台的分类算法采用朴素贝叶斯算法来实现数据挖掘过程,实验结果表明它完全适应在大数据环境下的数据处理,节约了时间,提高了算法运行效率.  相似文献   

20.
云计算是指基于互联网、通过虚拟化方式共享IT资源的新型计算模式。Hadoop以Hadoop分布式文件系统HDFS(Hadoop Distributed File System)和Map Reduce分布式计算框架为核心,为用户提供了底层细节透明的云分布式基础设施。系统研究的主要内容在基于Hadoop的云计算平台上实现通过检索不同文件系统下的输入接口,输入内容的分布式统计结果,智能提示和匹配后续的内容,完成智能输入提示功能的算法研究与实现工作。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号