首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 218 毫秒
1.
在分布式存储中,由于网络与存储节点的不稳定性,会导致文件存储过程失败。通过对文件进行适当的分割存储可以提高文件存储过程成功的概率。建立了网络存储节点可用性概率模型和文件块网络存储成功的概率模型,给出了文件分割存储策略,比较了在不同分割粒度下文件网络存储成功的概率,提出了分布式存储中文件分割的最优化模型,通过该模型可计算出大小为X的文件进行分布式存储时最优的分割块数。该模型对大文件的分布式存储具有一定的参考价值。  相似文献   

2.
Hadoop平台下MapReduce模型的数据分配策略研究   总被引:1,自引:0,他引:1  
针对Hadoop开源云计算平台下MapReduce并行编程模型中间数据分配不均衡的问题,提出基于抽样的改进型MapReduce模型,即SMR(Sample MapReduce)模型.SMR模型采用MapReduce作业方式对各分块数据集进行并行抽样,基于抽样结果,利用LAB(leen and balance)均衡算法对Map端输出的中间数据进行均衡分配,以改善Reduce端处理数据负载不均衡问题.实验结果表明:改进型MapReduce模型可以有效减少作业运行时间,Reduce端输入数据达到负载均衡.  相似文献   

3.
分布式网络环境中基于MapReduce的WordCount实现   总被引:1,自引:0,他引:1  
基于Hadoop的MapReduce分布计算模型,在伪分布模式下以Word Count实现为例,研究了MapReduce系统架构及运行机制、编程模型以及它作业的生命周期,实现了基于MapReduce的文本文字计数功能。  相似文献   

4.
大数据空间分析是 Cyber-GIS 的重要方面。如何利用现有的网络基础设施(比如大规模计算集群)对大数据进行并行分布式空间分析仍然是一大难题。为此,提出一种基于 MapReduce 的空间权重创建方法。该方法依托Hadoop 框架组织计算资源,基于 MapReduce 模式从大规模空间数据集中高效创建出空间权重:大空间数据被分为多个数据块,将映射器分布给计算集群中的不同节点,以便在数据中寻找出空间对象的相邻对象,由约简器从不同节点处收集相关结果并生成权重文件。利用 Amazon 公司弹性 MapReduce 的 Hadoop 框架,从人工空间数据中创建基于邻近概念的权重矩阵进行仿真。实验结果表明,该方法的性能优于传统方法,解决了大数据的空间权重创建问题。  相似文献   

5.
大数据处理过程中产生的高能耗问题亟待解决,尤其是在数据量规模剧增的背景下。在对已有数据布局策略存在问题分析的基础上,分析了与基于存储区域划分的节能模式及与异构HDFS集群的不适应、数据块切分算法不灵活、存储节点选择的随机性等几个方面的问题,继而提出面向节能的MapReduce数据布局策略。首先,新策略适应将集群划分为不同存储区域(Active-Zone与Sleep-Zone)的节能模式;其次,新策略对传统的数据块数计算方法进行了改进,提出作业截止时间约束下的最小任务数计算方法确定数据块数量;最后,新的存储策略增加了对异构集群环境的适应能力,并能根据不同的作业类型进行存储节点的选择。实验结果表明:新的数据布局策略能够适应异构集群环境,达到减小MapReduce作业能耗的目的。  相似文献   

6.
 为充分利用移动搜索和政府网站的特点, 发挥Hadoop 处理大数据的优势, 设计开发了日志挖掘和个性化定制系统。利用Flume 和HDFS 实现了海量日志的汇总和存储, 为日志挖掘提供了数据源和调用接口;采用MapReduce 实现了对日志的高效分析, 利用搜索结果网页的标签和导航, 建立了网页向量空间模型和用户兴趣模型;根据用户兴趣模型, 使用聚类分析中的K-means算法将有相似兴趣的用户组成兴趣组;通过计算搜索结果网页到用户所在兴趣组的距离, 判断用户对该网页是否感兴趣, 据此调整搜索结果的排序, 实现个性化搜索和推送功能。  相似文献   

7.
利用Spark平台对电力用户侧的大数据进行分析,提出基于梯度提升树的并行负荷预测方法.首先对历史负荷和天气数据集进行并行化分割处理,并采用特征提取与转换方法获取到预测模型所需的特征向量;然后合理设定Spark集群节点数以及调节Hadoop分布式文件系统(HDFS)分块大小;最后将参数调优后的梯度提升树模型部署到Spark分布式平台上进行训练与预测,并将该模型预测结果与其他预测模型进行精度比较.研究结果表明:通过合理划分HDFS中存储块的大小能有效提高集群对于大数据处理的效率,分布式梯度提升树算法在快速性与准确性上均有比较大的优势,能够满足电力负荷预测的要求.  相似文献   

8.
遥感定量反演的对象为多源遥感数据,处理过程不可避免地涉及到海量数据处理、信息提取和分析.遥感反演既是计算密集型,同时又是数据密集型的科学应用.随着反演理论和技术的发展,地表遥感模型复杂化,数据量呈爆炸式增长,相应地对计算能力的要求也越来越高.同时,随着我国空间技术的不断发展,卫星数据正以指数级的形式迅速增长,对相关应用系统的存储和计算能力也提出了很高的要求.基于以上原因,采用云计算框架,利用Hadoop平台设计该PM_(2.5)卫星遥感监测系统.其中,第一部分介绍了整个系统的架构设计,自上而下包括四个部分;第二部分对该系统的核心算法进行了详细的阐述,利用HDFS和MapReduce分别实现了对海量数据的冗余存储和并行化处理;第三部分进行了性能分析及实例测试,通过详细的对比,可以发现MapReduce并行计算在很大程度上能够提高系统的运行效率;最后对本系统进行总结和展望.通过对"高分一号"卫星数据获得的PM_(2.5)产品进行加速比分析,验证了系统具有高处理效率和高可用性等优点.  相似文献   

9.
针对HDFS采用的完全复制存储方案会占据较多的存储空间,且对数据的恶意窃取和攻击缺少防御措施,提出了基于分片聚合编码的HDFS数据存储策略,其中采用STAR码对数据进行编码处理,产生编码数据片,然后通过聚合操作将每个数据段中位置相同的数据片聚合组成一个存储数据块,实现了HDFS文件的存储.模拟实验表明基于分片聚合编码的文件存储策略相比原HDFS存储方案在数据分布方面更安全有效.  相似文献   

10.
针对HDFS采用的完全复制存储方案会占据较多的存储空间,且对数据的恶意窃取和攻击缺少防御措施,提出了基于分片聚合编码的HDFS数据存储策略,其中采用STAR码对数据进行编码处理,产生编码数据片,然后通过聚合操作将每个数据段中位置相同的数据片聚合组成一个存储数据块,实现了HDFS文件的存储.模拟实验表明基于分片聚合编码的文件存储策略相比原HDFS存储方案在数据分布方面更安全有效.  相似文献   

11.
针对单机爬虫效率低、可扩展性差等问题,本文设计并实现了一种基于MapReduce的网络爬虫系统。该系统首先采用HDFS和HBase对网页信息进行存储管理,基于行块分布函数的方法进行网页信息抽取;然后通过URL和网页信息相似度分析相结合的去重策略,采用Simhash算法对抓取的网页信息进行相似度度量。实验结果表明,该系统具有良好的性能和可扩展性,较单机爬虫相比平均抓取速度提高了4.8倍。  相似文献   

12.
针对潜在狄利克雷分析(LDA)模型分析大规模文档集或语料库中潜藏的主题信息计算时间较长问题,提出基于MapReduce架构的并行LDA主题模型建立方法.利用分布式编程模型研究了LDA主题模型建立方法的并行化实现.通过Hadoop并行计算平台进行实验的结果表明,该方法在处理大规模文本时,能获得接近线性的加速比,对主题模型的建立效果也有提高.   相似文献   

13.
k-means聚类算法的MapReduce并行化实现   总被引:1,自引:0,他引:1  
针对k-means聚类算法特点,给出了MapReduce编程模型实现k-means聚类算法的方法,Map函数完成每个记录到聚类中心距离的计算并重新标记其属于的新聚类类别,Reduce函数根据Map函数得到的中间结果计算出新的聚类中心,供下一轮MapReduce Job使用.实验结果表明:k-means算法MapReduce并行化后部署在Hadoop集群上运行,具有较好的加速比和良好的扩展性.  相似文献   

14.
封闭立方体是一种非常有效而重要的数据立方体压缩技术,目前还缺乏对其并行算法的研究.为此,文中提出一种采用C-Cubing方法并通过MapReduce并行模型进行并行化的新方法.该方法首先在Map过程中对各个数据分块计算出数据单元的代表元组和封闭掩码,然后在Reduce过程中进行聚合以获得封闭单元.实验结果表明,文中方法能有效地提高在大数据集上计算封闭立方体的速度.  相似文献   

15.
为解决广域网分布式环境下异构车辆轨迹大数据的语义融合问题,基于MapReduce和ACO算法提出可在广域网环境分布式并行执行的异构大数据语义聚类融合DPACO方法.该方法在数据源端节点并行完成聚类运算中复杂度最高的部分,将所得结果合并为数据量较小的中间结果,然后将中间结果传送到中心节点并自适应地生成聚类中心.此外,该方法无需预设公共语义模型,通过移动计算避免移动大数据,大大提高了运算效率.实验比较了DPACO方法和已有基于MapReduce的并行化ACO方法,结果表明DPACO方法在广域网环境异构大数据语义融合中具有更好的可用性.  相似文献   

16.
云计算模型在铁路大规模数据处理中的应用   总被引:1,自引:0,他引:1  
对铁路行业的计算资源、数据处理进行了特征分析.探讨了云计算模型中的虚拟化技术在铁路计算资源整合及MapReduce编程模型在大规模数据处理中的应用模式.采用Hadoop开源平台和Intel的虚拟化管理平台Tashi,提出和实现了基于云计算技术的铁路数据处理框架模型,并通过大规模的货票数据处理实例验证了框架模型的可扩展性和高效性.  相似文献   

17.
在传统的并行编程模型中,对大量数据如何进行并行计算、如何为每个任务分发数据、如何处理单点故障等问题,都需要大量的程序分析和设计,这些问题的有效处理都需要程序员显式地使用有关技术来解决.对于程序员来说,这是一项具有极大困难的工作,使得原本简单的运算反而变得非常复杂,这些问题的存在也在一定程度上制约了并行程序的普及.而MapReduce计算模型能有效地解决上述问题,阐述了Google的MapReduce计算模型的实现机制,并通过实例描述了该模型的执行过程.  相似文献   

18.
传统特征提取方法不适于大数据特征提取,提取效率低;为此,提出一种新的基于云计算的大数据关键特征高效提取方法。介绍了云计算中的MapReduce编程模型,给出Map与Reduce两个阶段的任务执行过程,通过MapReduce编程模型对大数据关键特征提取方法进行编程和处理,在云计算中实现高效运算。通过样本局部特征对特征集合进行评价,选择大数据关键特征。通过相空间重建保证大数据特征的不变性,在此基础上,引入关联维实现大数据关键特征的提取。实验结果表明,采用所提方法对大数据关键特征进行提取,可行性和效率高,与其他方法相比有更好的性能。  相似文献   

19.
图的最短路径查询作为图论的经典问题,广泛应用于现实世界的许多应用中.然而随着图的规模日益增大,传统单机环境下的查询算法已无法满足大规模图的处理需求.为解决上述问题,提出基于Hadoop的大规模图最短路径查询方法(D-CH方法):首先利用经典的图分割算法(CNM算法)将存储于Hadoop分布式文件系统(HDFS)中的大规模图进行分割,给出了适于后续算法的标记分割结果;然后将查询区分为分割后子图内查询和子图间查询,基于MapReduce编程模型分别给出相应的并行化查询处理算法.实验结果表明,D-CH方法对大规模图的最短路径查询具有良好的执行效率.  相似文献   

20.
胡琼 《佳木斯大学学报》2021,39(6):73-75,128
为解决大数据环境中计算机网络存储隐私问题,提出一种崭新的数据存储与加密方案.基于HDFS设计了大数据环境下计算机网络信息的分布式存储架构,基于文件指纹与元数据信息去除文件存储前的冗余数据;基于Lorenz超混沌系统生成随机性较强的序列,作为计算机网络大数据加密与解密密钥,在HDFS文件系统中完成大数据安全存储.最后,在实验中验证了该存储方案的安全性与高效性,人为攻击后数据受损度为0,数据存储效率远超AES安全存储算法、DES安全存储算法,为该方法在计算机网络大数据安全存储中的应用增添了有利证据.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号