首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 296 毫秒
1.
针对流数据规模参差不齐、 流量动态变化且突发性较强的特点, 提出一种可伸缩的动态MapReduce计算模型, 支持大规模动/静态数据在线处理. 基于Event推送方式, 利用Netty底层异步通信方式等技术, 建立在线MapReduce数据传输机制, 进一步实现其原型程序, 解决了大规模分布式计算程序的快速在线传输和数据分发等问
题, 支持流数据动态分发机制, 为动态MapReduce模型提供支撑. 与HadoopOnline系统的传统Socket管道传送方式相比, 该方法能有效提高作业之间数据的传送效率, 从而提高大规模流数据处理的实时性.  相似文献   

2.
在笔者之前的工作中,提出了一种基于MapReduce和SimHash的大数据K-近邻算法(H-MR-K-NN).虽然该算法能够有效解决大数据K-近邻算法的计算效率问题,运行时间远远低于基于MapReduce的K-近邻(MR-K-NN)所用的运行时间.然而,用MapReduce处理大数据时,需要从磁盘读取数据,再将中间结果写回磁盘,导致系统的I/O开销极大,这大大降低了MapReduce的效率.与MapReduce不同,Spark是一种基于内存的计算框架,它将数据第1次从磁盘读入内存,生成一种抽象的内存对象RDD(resilient distributed datasets).此后,Spark只操作内存中的RDD,计算过程只涉及内存读写,因此大幅提升了数据处理效率.基于这一事实,对算法H-MR-K-NN进行了改进,提出了一种改进的算法(简记为H-Spark-K-NN),可以进一步提高大数据K-近邻分类的运行效率.  相似文献   

3.
为了提高地理数据水印算法嵌入和检测水印信息的效率,提出了一种基于MapReduce的地理数据水印方法.该方法以MapReduce编程模型为基础,采用目前鲁棒性最好的基于可变步长量化调制的地理数据水印(VSQM)算法,在水印信息嵌入和检测时并行地处理目标地理数据中的地物,使得该方法的效率较之传统地理数据水印方法大为提高.最后在一个地理数据在线交易系统环境下实现了该方法,并通过一系列实验证实了所提出的方法能够有效提高地理数据水印方法的效率.  相似文献   

4.
MapReduce是一个并行分布式计算模型,已经被广泛应用于处理两个或多个大型表的连接操作.现有的基于MapReduce的多表连接算法,在处理链式连接时,不能处理多个大表的连接,或者需要顺序运行较多的MapReduce任务,效率较低.为此提出了一种基于MapReduce的多表连接算法——PipelineJoin,高效地实现任意多个大表的链式连接.PipelineJoin采用流水线模型和调度器来实现MapReduce任务的流水线式执行,从而有效提高多表连接的效率,同时可以较好地克服链式多表连接算法的缺陷.最后,在不同规模的数据集上进行了大量实验,实验结果表明PipelineJoin算法与原有链式多表连接算法相比,可以有效减少连接所需的时间.  相似文献   

5.
云计算框架大大改进了并行算法的实现难度,但是大部分算法有其局限性.介绍了MapReduce(映射化简)的基本实现原理和调度模型的缺陷,提出了基于支持向量机的的MapReduce进化算法,并给出了基本模型及实现.运用Hadoop云计算平台进行了仿真验证,实验结果表明,基于支持向量机的MapReduce计算框架在候选云节点的调度分配的准确性上有明显提高,并且加快了数据迭代的效率.  相似文献   

6.
针对海量数据的特性及KMeans算法的并行特性,提出了一种基于MapReduce编程框架的并行聚类算法,给出了算法的主要设计方法和策略.Map函数计算出每个记录所属的簇并用簇标号来标记;为了减少网络流量,利用Combine函数合并了本地的簇中的样本和;Reduce函数合并簇中所有的记录,并重新计算聚类的中心,供下一轮MapReduce迭代使用.最后用不同大小的数据集对改进算法的效率及伸缩性进行了验证,结果表明基于Hadoop的并行KMeans算法适合于海量数据的分析和挖掘.  相似文献   

7.
针对特定运行模式下粗粒度数据存在计算效率较低的问题, 提出一种基于卷积神经网络的数据分布式算法. 首先构建用于粗粒度数据处理的卷积神经网络模型, 给出模型基础连接层神经元网络的连接结构和权重比例, 并训练和池化粗粒度数据; 然后利用训练池化结果求解模型的最小损失函数, 提升模型针对粗粒度数据的分布式计算能力. 实验结果表明, 在单机和集群模式下, 卷积神经网络模型具有更好的计算效率和数据泛化能力.  相似文献   

8.
针对特定运行模式下粗粒度数据存在计算效率较低的问题, 提出一种基于卷积神经网络的数据分布式算法. 首先构建用于粗粒度数据处理的卷积神经网络模型, 给出模型基础连接层神经元网络的连接结构和权重比例, 并训练和池化粗粒度数据; 然后利用训练池化结果求解模型的最小损失函数, 提升模型针对粗粒度数据的分布式计算能力. 实验结果表明, 在单机和集群模式下, 卷积神经网络模型具有更好的计算效率和数据泛化能力.  相似文献   

9.
为解决广域网分布式环境下异构车辆轨迹大数据的语义融合问题,基于MapReduce和ACO算法提出可在广域网环境分布式并行执行的异构大数据语义聚类融合DPACO方法.该方法在数据源端节点并行完成聚类运算中复杂度最高的部分,将所得结果合并为数据量较小的中间结果,然后将中间结果传送到中心节点并自适应地生成聚类中心.此外,该方法无需预设公共语义模型,通过移动计算避免移动大数据,大大提高了运算效率.实验比较了DPACO方法和已有基于MapReduce的并行化ACO方法,结果表明DPACO方法在广域网环境异构大数据语义融合中具有更好的可用性.  相似文献   

10.
针对大规模路网路径搜索算法计算量大、耗时长、效率低等问题,采用MapRe-duce并行编程模型计算框架,利用网络中大量不同位置的计算机进行集群式海量数据计算,解决基于大规模路网分割成若干子图并行计算问题.本文基于MapReduce构建一个新的计算框架,建立了基于子图分割的并行搜索方法,实现超大规模真实交通路网中最短路径搜索.案例分析证明:该方法能够在可接受的计算时间内提供高质量的最短路径搜索服务.  相似文献   

11.
云环境中基于金字塔模型的影像数据存储方法   总被引:1,自引:0,他引:1  
随着卫星遥感获取技术的发展,影像数据量呈几何式增长,传统数据存储技术已经无法适应海量影像数据的处理要求.结合金字塔模型和MapReduce架构提出了一种适用于云计算环境的分布式并行存储方法—BMLStorage(storage based on MapReduce and local file system),该方法基于金字塔模型对影像数据进行分层分块处理,并对所得瓦片重新编码.定义了一种新的存储规则,使得所有瓦片可以按照此规则利用Hadoop中的MapReduce框架实现并行存储.实验表明,该方法与现有方法相比,在海量影像数据存储性能方面有一定的提高.  相似文献   

12.
为解决传统推理引擎在进行大规模OWL本体数据的SWRL规则推理时存在的计算性能和可扩展性不足等问题,提出了云计算环境下的SWRL规则分布式推理框架CloudSWRL.根据SWRL规则语义,并以Hadoop开源云计算框架为基础,设计了OWL本体在HBase分布式数据库中的存储策略,定义了SWRL规则解析模型和相关推理中间数据模型,提出了在DL-safe限制下基于MapReduce的SWRL规则分布式推理算法.实验结果表明,在对大规模OWL本体进行SWRL规则推理时,CloudSWRL框架在计算性能和可扩展性方面均优于传统推理引擎.  相似文献   

13.
面向海量高分辨率遥感影像数据快速发布需求,针对当前云环境下遥感影像数据并行重采样存在的难题,结合云平台MapReduce并行计算框架特性和遥感影像数据处理特点,提出了一种基于预分片的遥感影像数据并行重采样方法,通过预分片机制有效实现了该框架中对影像数据分片和并行重采样任务的控制,解决了MapReduce难以用于并行处理非结构化、具有空间位置特征的遥感影像数据的问题,从而实现了云环境下遥感影像数据的高效并行重采样.通过在开源云平台Hadoop上的实验和分析表明,该方法具有良好的重采样性能,能够实现高分辨率遥感影像数据的高效重采样.  相似文献   

14.
传统特征提取方法不适于大数据特征提取,提取效率低;为此,提出一种新的基于云计算的大数据关键特征高效提取方法。介绍了云计算中的MapReduce编程模型,给出Map与Reduce两个阶段的任务执行过程,通过MapReduce编程模型对大数据关键特征提取方法进行编程和处理,在云计算中实现高效运算。通过样本局部特征对特征集合进行评价,选择大数据关键特征。通过相空间重建保证大数据特征的不变性,在此基础上,引入关联维实现大数据关键特征的提取。实验结果表明,采用所提方法对大数据关键特征进行提取,可行性和效率高,与其他方法相比有更好的性能。  相似文献   

15.
大数据空间分析是 Cyber-GIS 的重要方面。如何利用现有的网络基础设施(比如大规模计算集群)对大数据进行并行分布式空间分析仍然是一大难题。为此,提出一种基于 MapReduce 的空间权重创建方法。该方法依托Hadoop 框架组织计算资源,基于 MapReduce 模式从大规模空间数据集中高效创建出空间权重:大空间数据被分为多个数据块,将映射器分布给计算集群中的不同节点,以便在数据中寻找出空间对象的相邻对象,由约简器从不同节点处收集相关结果并生成权重文件。利用 Amazon 公司弹性 MapReduce 的 Hadoop 框架,从人工空间数据中创建基于邻近概念的权重矩阵进行仿真。实验结果表明,该方法的性能优于传统方法,解决了大数据的空间权重创建问题。  相似文献   

16.
分布式并行计算是提高计算机性能常用的方法,但针对不同需求,并行程序的设计并没有统一的模型与方法,使得并行程序的编写完全依靠开发人员的经验。Google公司提出的分布式并行编程模型MapReduce能够完成特定类型的并行程序的开发与运行。使用哈希表对MapReduce分布式并行编程模型进行优化,减少中间结果中的碎片,并省略Combiner中间函数的调用,减少传输负载,提升运行效率,同时兼顾了Map函数与Reduce函数接口的属性,保持了MapReduce模型的并行性特点。  相似文献   

17.
针对雷达大场景高分辨率高精度快速成像的应用需求,提出一种基于MapReduce的合成孔径雷达后向投影快速成像方法,将方位向成像任务划分成若干个成像单元,进行分布式并行化方位向成像计算,最后将所有成像单元的计算结果进行相参累加。该方法对每个脉冲数据标上天线阵元的位置信息,使得各个脉冲数据可以并行补偿相位;采用相等脉冲数划分成一个数据块的方式提高计算效率和实现负载均衡;设置Combiner函数对成像单元内的计算结果进行提前聚合,解决后期聚合时间较长的问题。实验验证了该方法的有效性,在保证成像准确的前提下,该方法的方位向成像在4台物理计算机搭建的分布式计算平台中进行,其计算速度是单机计算的后向投影方位向成像方法的3.7倍,可见该方法可以实现合成孔径雷达大场景高分辨率高精度快速成像。  相似文献   

18.
针对MapReduce框架与传统关系型数据库兼容性不好的问题,提出了一种基于分块结构的分布式关系数据库ChunkDB.并对MapReduce架构进行了扩展设计,使ChunkDB与MapReduce有效结合,将MapReduce的扩展性、易操作性、高并行性与关系数据库的索引等查询优化优势相结合.实验证明基于MapReduce的ChunkDB数据库能够为数据仓库应用提供快速高效的并行查询.  相似文献   

19.
针对海量数据的存储问题,传统方法一般是通过购置更多数量的服务器来提升计算和存储能力,存在硬件成本高,存储效率低等缺点。通过对Hadoop框架和MapReduce编程模型等云计算核心技术的分析和研究,提出了一种基于Hadoop框架的海量数据存储模型,并在此模型的基础上,设计并实现了基于Hadoop的校园云存储系统。经过实验验证,该系统有效地解决了在校园办公、教学和科研过程中遇到的海量数据存储管理问题,具有开发成本低、处理速度较快、运行稳定、易于扩展等特点。  相似文献   

20.
通过对运用Gibbs采样的Latent Dirichlet Allocation(LDA)算法和MapReduce计算框架的细致研究,实现了LDA算法在Mahout下的分布式并行计算.详细地考察了该分布式并行计算程序的计算性能,并深入地探讨了一些影响计算性能的关键问题.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号