排序方式: 共有179条查询结果,搜索用时 171 毫秒
141.
Hadoop利用统一的备份机制来确保数据的可用性和容错性.然而对于重要的文件块,只能通过修改配置文件来设置副本数量.通过分析电信业数据仓库文件的访问情况,提出文件备份与存放动态调整算法(BPDA)来提高数据局部性,以减少数据传输带来的I/O和网络消耗,提高查询效率.运用多副本一致性哈希算法,概率采样和竞争力弱化算法,得到每一个文件的最佳备份数和备份位置.实验结果验证了该算法可以提高查询关联效率. 相似文献
142.
云计算环境下煤矿应急管理海量数据存储技术 总被引:3,自引:0,他引:3
随着物联网、无线传感器网络等技术在煤矿应急管理信息化建设中的广泛应用,煤矿大量监测、控制及自动化等实时系统产生的流式数据会形成相当规模的数据集,对煤矿企业现有信息系统构架的海量数据存储及处理性能提出了更大的挑战。为了研究应对此挑战的海量数据存储技术,通过分析煤矿应急管理海量数据的来源及其特点,设计了云计算环境下基于NoSQL的煤矿应急管理海量数据存储方式,并对煤矿应急云平台进行了Hadoop基准测试,同时利用陕西黄陵矿业集团一号矿井某段周期内的瓦斯数据,对煤矿应急云平台和DBMS系统的处理性能进行对比。实验结果表明,基于Hadoop构建的煤矿应急云平台在海量数据存储与处理时均有良好的性能表现。 相似文献
143.
一种局域网分布式文件系统的设计与实现 总被引:1,自引:0,他引:1
介绍了基于局域网的分布式UNIX操作系统中分布式文件系统的设计与实现技术。HZDUNIX分布式文件系统主要集中于对UNIX内核的改造,提供本地及远地文件操作一体化的接口,采用基于代理的分布式文件服务技术,有较快的响应速度,从而较好地实现了透明性,并支持原UNIX大多数SHELL命令 。 相似文献
144.
介绍了基于局域网的分布式UNIX操作系统(HZDUNIX)中分布式文件系统的设计与实现技术.HZDUNIX分布式文件系统主要集中于对UNIX内核的改造,提供本地及远地文件操作一体化的接口,采用基于代理的分布式文件服务技术,有较快的响应速度,从而较好地实现了透明性,并支持原UNIX大多数SHELL命令 相似文献
145.
设计一种分布式流量分析系统, 该系统利用分布式计算方法处理大量的sFlow采集信息, 避免了传统sFlow收集器在处理大量数据时成为系统瓶颈的问题. 相似文献
146.
Apache Hadoop处理超大规模数据集有非常出色的表现,相比较于传统的数据仓库和关系型数据库有不少优势.为了让原有业务能够充分利用Hadoop的优势,SQL-on-Hadoop系统越来越受到工业界和学术界的关注.基于Hadoop的SQL查询引擎种类繁多,各有优势,其运算引擎主要包括三种:①传统的Map/Reduce引擎;②新兴的Spark引擎;③基于shared-nothing架构的MPP引擎.本文选取了其中最有代表性的三种SQL查询引擎—Hive、Spark SQL、Impala,并使用了一种类TPC-H的测试基准对它们的决策支持能力进行测试及评估.从实验结果来看,Impala和Spark SQL相对于传统的Hive都有较大的提高,其中Impala的部分查询比Hive快了10倍以上,并且Impala在完成查询所占用的集群资源也是最少的.然而若从稳定性、易用性、兼容性和性能等多个方面进行对比,并不存在各方面均最优的查询引擎,因此在构建基于Hadoop的数据仓库系统时,推荐采用Hive+Impala或者Hive+Spark SQL的混合架构. 相似文献
147.
针对Hadoop平台默认调度器在异构环境中不能根据作业类型和资源使用情况进行资源调度的问题,进行了Hadoop容量调度算法资源调度机制研究,提出一种基于作业类型和优先级权重的容量调度算法。首先通过作业负载分类,将用户提交的作业划分为CPU(central processing unit,中央处理器)负载类型作业和I/O(input/output,输入/输出)负载类型作业,并将不同类型作业分配到相应队列中;然后根据权重公式为超过等待时间阈值的作业更新作业优先级,实现队列中的作业排序;最后结合节点实时负载情况优先为优先级高的作业分配资源,从而实现集群性能的提升。结果表明,在异构环境下,相比容量调度算法,本算法将单作业类型和混合作业类型的作业平均完成时间分别缩短了9.7%和30.8%,从而有效地提高了作业执行效率和系统的资源利用率。本算法优化了Hadoop系统的负载均衡,可为后续相关调度算法的优化研究提供参考。 相似文献
148.
经典MapReduce编程模型的输出结果不是单一的Hadoop分布式文件系统(HDFS)文件,为此,文中提出了单一输出文件的MapReduce编程模型:SingleMapReduce.该模型通过拦截Job Successful状态,将输出目录下的所有文件"整合"为单一文件.文中给出了HDFS的4个重要特征,提出了HDFS的"块典型分布"和"块非典型分布"的概念,设计了一种通过整合元数据来达到整合文件的算法.理论分析和实验结果表明:该模型的MapReduce计算的输出结果为单一文件;该模型可以再次以文件的形式对MapReduce计算的输出结果进行分片,并可用并行方式导入大表或大文件到HDFS中;该模型间接支持了名称节点的扩展性. 相似文献
149.
从大规模数据库中挖掘非显著性特征数据时,容易产生大量数据通信和中间数据,存在大量交集操作,影响挖掘实时性。为此,提出一种新的基于Hadoop分布式架构的非显著性特征数据实时挖掘方法。对数据显著度进行检测,提取非显著性特征;搭建Hadoop分布式架构硬件结构,按照非显著性特征数据挖掘的特性和功能,建立Hadoop分布式架构非显著性特征数据挖掘软件架构;包括交互层、应用层、非显著性特征数据挖掘层和分布式计算层。把大数据集分割为若干数据块,将数据块分配至所有计算节点,依据非显著性特征进行并行计算,将map阶段的本地输出结果合并在一起,降低节点间数据交换量。通过reduce函数把所有计算节点的临时文件合并为垂直项集,求出项支持度。当无更多频繁项集的数据输出时,即可得到非显著性特征数据。实验结果表明,所提方法挖掘结果可靠,实时性强。 相似文献
150.
分布式并行计算是提高计算机性能常用的方法,但针对不同需求,并行程序的设计并没有统一的模型与方法,使得并行程序的编写完全依靠开发人员的经验。Google公司提出的分布式并行编程模型MapReduce能够完成特定类型的并行程序的开发与运行。使用哈希表对MapReduce分布式并行编程模型进行优化,减少中间结果中的碎片,并省略Combiner中间函数的调用,减少传输负载,提升运行效率,同时兼顾了Map函数与Reduce函数接口的属性,保持了MapReduce模型的并行性特点。 相似文献