首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 78 毫秒
1.
介绍开源Hadoop云平台的一些主要特点及其数据存储的优势.通过把云平台自身特点与地理系信息系统的构架设计相结合,提出了基于Hadoop云平台的地理信息系统构架,使地理信息系统具有云的相关特性.该地理信息系统能解决地理信息数据量大、种类繁多的数据在计算等方面有一定的优势,从而大大提高了云GIS系统的效率.  相似文献   

2.
针对大数据来源多、维度高和体量大的特点,提出一种云环境下检测大数据相似重复记录的并行算法MP-SYYT.利用汉语词法分析技术、德尔菲法以及词频-逆向文件频率算法对传统的SimHash算法进行改进,以解决算法中关键词提取速度慢、精度和权重计算精度低的问题;利用倒排索引算法对传统SimHash算法进行优化,以提高其相似重复记录的匹配效率;利用所提MP-SYYT算法在云平台上定义Map函数和Reduce函数,并用MapReduce模型在云环境下实现了大数据相似重复记录的并行检测和直接输出;在Hadoop平台上进行实例分析,以验证MP-SYYT算法的高效性和实用性.  相似文献   

3.
MapReduce编程模型被看作是Hadoop的核心组件,一直以来都受到广泛的应用和研究,但针对Hadoop云平台的性能研究主要集中在配置调优和分布式算法等方面,缺乏对Hadoop加速比性能模型的理论研究.针对此问题提出了Hadoop云平台加速比性能模型,并分别在同构机群和异构机群架构上对该模型进行了分析.针对同构机群提出了3种I/O负载模型,并指出了其对加速比的影响;指出了异构机群不适合做Hadoop云平台的原因及异构性对Hadoop云平台造成的影响.这些研究对Hadoop云计算平台的搭建及如何提高Hadoop云平台加速比性能有很好的指导作用,提供了理论依据.  相似文献   

4.
分析K-means聚类算法和Hadoop云平台的特点,对聚类算法进行改进,给出算法的MapReduce实现.通过加速比实验和旅游数据细分实验,验证了算法的有效性和高可扩展性.针对旅游大数据的特点,构建了多指标的RFM扩展模型,通过文中算法聚类,得到与预期相近的聚类结果.实验结果表明:文中算法具有较高的实用价值.  相似文献   

5.
随着云计算环境中数据量的激增,人们急需研究在云环境下如何对大量数据进行快速有效的分析与处理。在云环境下对大量数据进行高效地排序是其中一个重要问题。基于Hadoop平台研究并实现了几种高效的排序算法,包括:Radix sort,Quicksort和Sample sort算法。对各个排序算法的执行效率、CPU资源的消耗,内存的消耗,以及处理机间的通信量进行了研究和比较分析。通过大量运行在Hadoop上的实验,发现Hadoop平台上的Sample sort相较于Radix sort和Quicksort具有排序速度快,负载均衡度高,CPU消耗低等优势。这一结果为云计算环境下设计更高效、节能的算法提供了有效的依据和基础。  相似文献   

6.
Hadoop是一个免费的开源云平台,是允许在集群计算机上分布式处理大数据的软件框架。它是一种可靠、高效、可伸缩的云平台,很适合在实验室环境下进行模拟测试。以Hadoop为基础,借助虚拟机VMware以及Linux、ubuntu、Hadoop、java--jdk等软件,详细地介绍了单机环境下的虚拟云平台搭建过程,并给出具体的实例搭建过程。在设计实例中详细的论述了虚拟机、java、Hadoop等软件的安装、设置、测试过程。实现了在实验室环境对云平台的虚拟,并提出了在搭建试验平台时应该注意的用户权限、路径配置和使用SSH服务程序等问题。该试验平台为系统中间件和应用服务的开发提供了基础。  相似文献   

7.
Hadoop平台是一个开源的计算机集群系统,它能快速处理海量的数据,且具备低成本、高效率、高扩展、高可靠、高容错的优势.基于Hadoop平台探索了数据挖掘算法的应用,详细阐述了Hadoop平台的基本组成原理以及运行机制,探索了相关的数据挖掘算法.基于MapReduce的K-Modes聚类数据挖掘算法具备较好的自适应性,利用簇众数来取代中心节点,提高了算法效率;基于Hadoop平台的分类算法采用朴素贝叶斯算法来实现数据挖掘过程,实验结果表明它完全适应在大数据环境下的数据处理,节约了时间,提高了算法运行效率.  相似文献   

8.
通过对Hadoop平台下MapReduce作业处理方式及布鲁姆过滤器算法的深入研究,将优化的压缩型布鲁姆过滤器算法用于节点间数据联结操作,解决了基于Hadoop平台同时处理多个大规模数据集时的数据关联问题.实验证明,压缩型布鲁姆过滤器算法在MapReduce作业中的应用,使得大数据集之间的联结效率显著提高.  相似文献   

9.
为了优化BIM云平台的数据分类,提高处理效率,提出一种使用MRU算法对用户常用数据进行分类处理的策略.详细论述了实现的过程以及关键技术.实验表明,使用该方法处理数据,比使用传统Hadoop方法处理数据,所需的时间明显减少,能够提高BIM云平台数据分类与处理的效率.  相似文献   

10.
针对当前大数据时代的背景,信息数据的海量化现象与日俱增,为了实现数据搜索的低成本、高效率,对Google搜索引擎的PageRank算法进行了综合性的研究分析,分别介绍了MapReduce框架和Hadoop实现平台,在此基础上,在Hadoop平台详细分析了基于MapReduce的PageRank算法的并行实现过程,以实现海量数据的并行处理,极大地提高了搜索引擎的性能.  相似文献   

11.
Hadoop是Apache基金会下的一个开源分布式计算平台,以分布式文件系统HDFS(Hadoop Distributed File System)和Map Reduce分布式计算框架为核心,为用户提供了底层细节透明的云分布式基础设施。在对Hadoop进行深入分析和研究的基础上,搭建基于Hadoop的云计算平台,并完成分布式文本文件处理任务以及对文件文本内容处理算法的改进和实现。  相似文献   

12.
Hadoop是一套开放的云计算平台,使用Map Reduce处理数据的分割与合并,简单的设置就可使用云计算的强大功能.但随之而来的是个人数据在没有任何保护的情况下随时可能遭受攻击,因此云平台上的个人信息安全问题就显得格外重要.本研究提出了一种具备安全数据传输的Hadoop云平台规则来增加云数据分割与合并的安全度.实验结果证明,本安全方案确实提高了云平台数据传输的安全性.  相似文献   

13.
随着大数据时代的到来,聚类分析算法将面临如数据量巨大、数据维数增加等挑战,分布式处理是解决这类问题的方法之一。本研究将ROCK算法与Hadoop平台相结合,按照分布式处理原则,通过计算机集群模式去处理大规模的多样性数据。实验证明,在Hadoop平台下的ROCK聚类算法很大程度上提升了对高维数据进行聚类的能力。  相似文献   

14.
针对大型钢结构采用单一无损检测方法经常难以实现被检测对象的完整准确评估问题,利用多种无损检测方法进行综合检测是有效手段,其中综合检测结果可信度评定是关键.首先,设计基于Hadoop的大型钢结构无损云检测系统架构,分析大型钢结构无损云检测Hadoop架构的信息流;接着定义大型钢结构无损云检测数据可信度融合的D-S证据理论联合算子,提出基于D-S证据理论的多源数据可信度MapReduce融合算法;最后,建立大型钢管塔结构检测实验平台,对可视化内窥检测、涡流检测和超声波检测等多源数据可信度进行了融合评估实验.结果表明,云检测数据可信度MapReduce融合算法有效提高了各个单一检测手段的缺陷检出率,可满足大型钢结构无损云检测的实际需求.  相似文献   

15.
作为中间件的软件框架,Hadoop可以对大量数据进行分布式处理。基于Hadoop的云平台参数的优化可以提高系统的处理性能。使用VMware虚拟机技术在单机上配置多个虚拟计算机节点,实现满足实验环境的Hadoop完全分布式平台,并且进行集群测试。对Hadoop平台的相关参数进行优化配置,利用TeraSort程序对参数优化前后进行了对比测试,分析了测试结果。实验表明,参数优化对Hadoop平台性能具有较大的影响。在实际工程的全局部署之前,可利用或借鉴本方法,以应用环境为基础,充分考虑硬件配置情况、集群数量和数据大小等因素,进行样本的调优实验,获得最优的云平台组合参数。  相似文献   

16.
为了使金融大数据产生业务价值,提高金融信息化应用水平,针对金融行业实时海量信息存取困难的问题,提出一种构建用于金融行业的云平台分布式架构。通过金融系统监控信息的存储分析,利用分布式文件系统和并行编程模型,提出对应用集群和虚拟资源的管理方案。实验中建立了云集群分布式处理平台,通过金融大数据量查询性能结果表明,基于Hadoop的金融智能云平台分布式架构的合理性和有效性。  相似文献   

17.
杨宏宇  孟令现 《北京理工大学学报》2017,37(10):1031-1035,1042
为解决现有Hadoop云平台访问控制缺乏动态性的问题,提出一种基于用户行为评估的Hadoop云平台动态访问控制模型(DACUBA).该模型采用指令序列学习(CSL)算法从用户指令序列中提取用户行为模式,利用全局模式库对用户行为进行分类并对分类结果进行行为评估,然后将评估值应用于Hadoop云平台的访问控制机制中实现动态访问控制.验证实验结果证明了DACUBA的有效性,与其他方法相比,该方法对云请求的访问控制效率较高,且稳定性较好.   相似文献   

18.
为了提升数据挖掘效率,为众多空间数据应用领域提供数据支撑,提出基于Hadoop云平台的空间属性数据挖掘技术:利用分布式编程模型MapReduce和Hadoop分布式文件系统构建Hadoop云平台,在云平台中实现分布式计算、数据挖掘、业务响应以及用户交互;其中数据挖掘层利用归一化变换将空间数据与属性数据调整为正态分布并统一量纲后,采用快速独立成分分析算法去噪处理变换后数据;依据贝叶斯分类理论以及极大后验和似然假设构建朴素贝叶斯分类器,将去噪处理后的数据作为分类器输入,完成空间属性数据挖掘。试验结果表明该技术应用在农业生产中,可以增加经济效益,数据经去噪后峰值信噪比与结构相似性较高,可有效挖掘城市空间属性数据,且具有较高数据挖掘速度。  相似文献   

19.
通过对移动存储进行需求分析,提出了一种基于Hadoop的移动云存储系统.移动云存储系统通过手机客户端与服务器端和云端进行数据交换,达到访问云端数据和加密存储数据的目的.本系统实现了基于Android移动手持终端上的文件移动云存储,达到了实时查看和分享数据的目的;对用户信息采用对称加密算法,保证了文件存储过程中用户信息的安全;利用Hadoop云管理平台和AES文件加密算法,保证了在存储在云端文件的安全.  相似文献   

20.
传统的决策树算法在单机平台上处理海量数据挖掘时,容易受到计算能力和存储能力的限制,所以存在耗时过长、容错性差、存储量小的缺点.而拥有高可靠性和高容错性的Hadoop平台的出现为决策树算法的并行化提供了新的思路.本文设计和实现了一种基于Hadoop平台的并行SPRINT分类算法.实验结果表明:基于Hadoop平台的SPRINT分类算法比没有进行并行化的SPRINT算法具有较好的分类正确率、较低的时间复杂度和较好的并行性能,并且能明显提高算法求最佳分裂点时的执行速度.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号