首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 15 毫秒
1.
为提高Hadoop云计算平台的性能,该文提出了一种跨层的参数优化模型.首先分析了云计算平台的工作流程,将系统参数与流程对应,并加入基础设施即服务与平台即服务层的参数,找出对Hadoop集群效率作用显著的参数,并把这些参数值作为性能参数,构建成性能参数模型,再用启发式蚁群算法搜寻性能较优的可行参数,并不断修正,找出最佳参数组合,最后整合跨层的参数来提高Hadoop云计算平台的性能.实验表明,该算法可行,性能优良.  相似文献   

2.
Hadoop是一套开放的云计算平台,使用Map Reduce处理数据的分割与合并,简单的设置就可使用云计算的强大功能.但随之而来的是个人数据在没有任何保护的情况下随时可能遭受攻击,因此云平台上的个人信息安全问题就显得格外重要.本研究提出了一种具备安全数据传输的Hadoop云平台规则来增加云数据分割与合并的安全度.实验结果证明,本安全方案确实提高了云平台数据传输的安全性.  相似文献   

3.
Hadoop是google云计算理论的开源实现,作为软件系统中间件的软件框架,它可以对大量数据进行分布式处理。通过Haddop,用户可以在不了解分布式底层细节的情况下开发分布式程序,充分利用集群的威力进行高速运算和存储。通过使用VMware虚拟机技术实现在单机上配置多个虚拟计算机节点,从而进行集群测试;在虚拟节点上安装Ubuntu操作系统作为Hadoop的操作系统支持;同时,利用Xmanager软件,以及配置局域网中宿主机与虚拟机、远程控制机的网络参数,实现对虚拟节点的远程控制;在已经安装好Ubuntu操作系统的各个虚拟节点上安装Hadoop、java-JDK等软件,并进行相关的参数设置,实现在虚拟机上各个虚拟节点的Hadoop完全分布式平台。最后在Hadoop平台上,使用Hadoop软件自带的基准测试程序包对平台进行4个Hadoop的经典基准测试。同时,每个测试都会加载不同的数据量及负载进行多次实验,通过比较在不同的负载下Hadoop的基准测试结果,测试Hadoop平台的相关性能,并分析负载及数据量的变化对Hadoop平台性能的影响。  相似文献   

4.
为了使金融大数据产生业务价值,提高金融信息化应用水平,针对金融行业实时海量信息存取困难的问题,提出一种构建用于金融行业的云平台分布式架构。通过金融系统监控信息的存储分析,利用分布式文件系统和并行编程模型,提出对应用集群和虚拟资源的管理方案。实验中建立了云集群分布式处理平台,通过金融大数据量查询性能结果表明,基于Hadoop的金融智能云平台分布式架构的合理性和有效性。  相似文献   

5.
支持向量机(Support Vector Machine,SVM)在解决小样本、非线性以及高维模式识别问题中都表现出了良好的性能.然而,在实际问题中随着数据集规模的增大,该算法寻找全局最优支持向量的过程变得十分缓慢,甚至无法在有效的时间和实际环境允许的条件下得到训练模型.本文结合当前流行的分布式解决方案——Hadoop云平台,设计并实现了一种并行化SVM算法.通过在UCI标准数据集上的实验进行分析,结果表明,与传统的单机SVM算法相比,在不显著降低预测精度的前提下,训练时间复杂度得到了比较明显的降低.  相似文献   

6.
为了提升数据挖掘效率,为众多空间数据应用领域提供数据支撑,提出基于Hadoop云平台的空间属性数据挖掘技术:利用分布式编程模型MapReduce和Hadoop分布式文件系统构建Hadoop云平台,在云平台中实现分布式计算、数据挖掘、业务响应以及用户交互;其中数据挖掘层利用归一化变换将空间数据与属性数据调整为正态分布并统一量纲后,采用快速独立成分分析算法去噪处理变换后数据;依据贝叶斯分类理论以及极大后验和似然假设构建朴素贝叶斯分类器,将去噪处理后的数据作为分类器输入,完成空间属性数据挖掘。试验结果表明该技术应用在农业生产中,可以增加经济效益,数据经去噪后峰值信噪比与结构相似性较高,可有效挖掘城市空间属性数据,且具有较高数据挖掘速度。  相似文献   

7.
杨宏宇  孟令现 《北京理工大学学报》2017,37(10):1031-1035,1042
为解决现有Hadoop云平台访问控制缺乏动态性的问题,提出一种基于用户行为评估的Hadoop云平台动态访问控制模型(DACUBA).该模型采用指令序列学习(CSL)算法从用户指令序列中提取用户行为模式,利用全局模式库对用户行为进行分类并对分类结果进行行为评估,然后将评估值应用于Hadoop云平台的访问控制机制中实现动态访问控制.验证实验结果证明了DACUBA的有效性,与其他方法相比,该方法对云请求的访问控制效率较高,且稳定性较好.   相似文献   

8.
近年来,随着互联网的发展,海量GIS的数据亦呈现着井喷的趋势,如何分享、分析和利用好如此庞大、种类繁杂的GIS数据成为一项具有严峻挑战的工作;为此借助于云计算多重数据的分布性、多重异构的特点,结合传统GIS数据特征对搭建云GIS平台进行探索性的研究和应用,最终基于hadoop尝试性构建了一套云GIS平台,完成GIS大数据的云存储和云计算分析等工作。  相似文献   

9.
为提高信息获取的定向性和准确性, 适应大数据时代数据处理需求, 以高校信息平台为应用背景, 设计并实现了基于Hadoop 云平台的个性化信息定制系统。该系统利用Mahout 培养Bayes 分类器实现数据挖掘算法的分布式, 将分析处理结果存储于Hbase 数据库中, 并在移动终端上开发了基于Android 的客户端, 将移动终端与分布式信息处理平台互连, 完成信息推送。测试结果表明, 该系统可以为用户提供个性化定制服务, 方便用户随时查阅定制信息, 提高信息服务的针对性和互动性, 满足用户日益增长的网络访问需求。  相似文献   

10.
分析了KNN分类算法的流程,然后在K值的动态获取和分类加权两个方面对分类算法进行改进;利用MapReduce编程思想完成KNN分类算法在Hadoop集群环境下的移植和实现。实验数据证明,改进后的KNN分类算法在人脸识别精度、识别效率和稳定性3个方面得到了有效提高。  相似文献   

11.
随着图像数据的增加,海量的图像分类过程成为了一个耗时的过程。Hadoop是一个开源的分布式处理系统基础架构,有着优秀的海量数据处理性能。首先对Hadoop系统和编程框架进行了介绍,然后将图像分类中的海量数据处理过程在Hadoop平台上实现。与运行环境DELL powerEdge R170比较显示:基于Hadoop平台的图像分类在小图特征提取处理上Hadoop平台优势不明显,但对于大图特征提取、向量运算和kNN运算,耗时大大缩短,数据处理能力的优势明显。  相似文献   

12.
首先介绍了云计算的相关概念,其次阐述了当前教育资源库建设的现状以及存在的问题,进而提出基于Hadoop平台的教育资源库建设方案,最后详细介绍了其核心模块的实现过程.  相似文献   

13.
为了高效地分析挖掘新浪微博社交网络信息传播过程中的关键节点,以Hadoop云计算系统作为存储和处理平台,在X-RIME大规模社会网络分析工具开源框架基础上,针对社交网络中使用HITS(hypertext induced topic selection)链接分析算法挖掘关键节点时,未能体现节点和连接的社会属性问题进行改进.新算法充分考虑了社交网络节点和边的社会属性,对HITS算法节点和边的社会属性权值进行优化计算,提出适合社交网络特点的加权HITS算法.通过Hadoop云平台分别运行加权HITS算法和传统HITS算法对新浪微博社交网络数据进行分析.实验结果表明,加权HITS算法比传统HITS算法具有更高的执行效率和结果区分度,加权HITS算法更适合于大规模社交网络信息传播过程中关键节点的分析挖掘.  相似文献   

14.
分析了Hadoop云计算平台的安全需求,设计了一种基于身份的Capability(ID-CAP),并提出了一种基于IDCAP的Hadoop访问控制方案。方案设计采用了最小授权原则,实现了基于Capability的访问控制,使用户在Hadoop平台上提交的作业能以最小权限运行。实验结果表明:基于Capability的访问控制机制能有效实现在Hadoop平台上实施最小授权原则,支持平台内部相互依赖的各模块之间的身份认证,有效提高Hadoop平台的系统安全性和稳定性。  相似文献   

15.
针对海量数据的存储问题,传统方法一般是通过购置更多数量的服务器来提升计算和存储能力,存在硬件成本高,存储效率低等缺点。通过对Hadoop框架和MapReduce编程模型等云计算核心技术的分析和研究,提出了一种基于Hadoop框架的海量数据存储模型,并在此模型的基础上,设计并实现了基于Hadoop的校园云存储系统。经过实验验证,该系统有效地解决了在校园办公、教学和科研过程中遇到的海量数据存储管理问题,具有开发成本低、处理速度较快、运行稳定、易于扩展等特点。  相似文献   

16.
随着信息技术的快速发展,高校在科学研究中的数据呈几何倍增长.为了整合教育资源、节约教育成本,本文利用Hadoop构建一个高效、稳定、可扩展的云存储集群,从而解决高校在教育教学过程中资源浪费和存储空间不足的问题.  相似文献   

17.
设计了基于云平台架构的M印Reduce性能优化策略,全面考虑MapReduce作业过程中的数据传输与数据处理流程,将虚拟网络拓扑结构的设计描述成一个优化问题,并构建模型实现了通信代理数量、通信代理的放置位置以及虚拟机与通信代理之间的映射关系,以解决目前大多数研究只单方面考虑平台的数据处理或数据传输性能的缺陷.实验结果表明,与随机匹配策略和贪心策略相比,本方案优化了云计算系统的虚拟网络拓扑结构,减少了数据传输与处理的时间总开销,显著地提高了大数据处理的整体性能.  相似文献   

18.
谱聚类(Spectral Clustering)是建立在谱图理论基础上的一种聚类算法.与传统的聚类算法相比,谱聚类能够在任意形状的样本空间上进行聚类且收敛于全局最优解.然而,实际问题中大规模数据集普遍存在,在使用谱聚类对大规模数据集进行聚类时,收敛速度变得十分缓慢,甚至无法在有效的时间内得到聚类结果.并行算法是针对大规模数据集进行处理的一种有效方法.基于Hadoop云计算平台实现大规模数据集的存储和处理是目前实现并行计算的一种高效解决方案.  相似文献   

19.
大数据时代的到来伴随着海量数据,进而使得筛选出具有价值的信息成为大数据被广泛应用的核心步骤.在此情况下Apache Hadoop顺势而生,其通过简化数据密集、高度并行的分布式应用来应对大数据带来的挑战.由于目前基于Hadoop的大数据平台在多领域普遍使用,从而平台搭建成为进行大数据探索的第一步.而很多文章介绍的平台搭建是在虚拟机中完成,与真实情况存在相应差异.本文讨论以真实集群为基础搭建Hadoop平台的原因,Hadoop集群的强大功能,搭建平台所需设备、环境、安装、设置及测试过程.  相似文献   

20.
为了解决大数据的深度挖掘和即时查询的需求,建立了一个分布式、可伸缩、低成本和大容量的并行计算集群,实现了半结构化数据的SQL查询分析,并提供了标准对外接口。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号