首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 437 毫秒
1.
基于 Hadoop 平台的相关系统得到了广泛应用。Hadoop 分布式文件系统(Hadoop distributed file system, HDFS)通过分布式的工作方式,负责处理海量文件数据。对 HDFS 而言,海量数据中的小文件存储问题制约着系统高效工作的能力。针对海量数据中小文件读写效率低的情况,提出一种基于 HBase(Hadoop database)的海量小文件高效存储方法,利用 HBase 的存储优势,将小文件直接存储于 HBase,从而有效减少元数据节点服务器(Name-Node)的负载,并对上层应用系统提供透明的访问接口。实验结果表明,该方法可以实现海量小文件的高效存储,提高 HDFS 环境下小文件的读写效率。  相似文献   

2.
一种提高云存储中小文件存储效率的方案   总被引:3,自引:0,他引:3  
针对基于HDFS(Hadoop distribated file system)的云存储系统中小文件存储效率不高的问题,采用序列文件技术设计了一个云存储系统中小文件的处理方案.该方案利用多维属性决策理论,综合读文件时间、合并文件时间及节省内存空间大小等指标,得出合并小文件的最优方式,能够在消耗的时间和节省的内存空间之间取得平衡;设计基于层次分析法的系统负载预测算法对系统负载进行预测,从而实现负载均衡的目的;利用序列文件技术对小文件进行合并.实验结果表明,在不影响存储系统运行状况的基础上,该方案提高了小文件的存储效率.  相似文献   

3.
Hadoop是一个由Java语言实现的软件框架,在一个计算机集群中对海量数据进行分布式计算,这个集群可以支持上千个节点和PB级别的数据.HDFS是专门为Hadoop设计的分布式文件系统,作为Hadoop最基本的构成元素,保证内容的完整性与可用性.但是HDFS的操作界面并不友好,必须通过命令行或者IDE插件来实现对文件的操作.在研究HDFS的架构的基础上,设计实现了基于WEB的HDFS可视化文件访问系统.  相似文献   

4.
将云计算技术应用于数据备份领域,  设计并实现了基于分布式文件系统(HDFS)的云数据备份系统. 该系统利用云存储技术, 应用已有的廉价计算机设备构建数据备份集群, 解决了用户数据备份/恢复业务的需要, 通过用户分群管理、 小文件合并上传、 恢复优先等策略进一步提高了系统性能. 实验结果表明,  云备份系统在安全性、 可扩展性、 经济性及可靠性上均具有一定的优势.  相似文献   

5.
为高效地处理大规模矢量空间数据,基于Hadoop的并行计算框架MapRedue,实现了一种分布式的矢量空间数据选择查询处理方法.首先,分析OGC简单要素标准与Hadoop的Key/Value数据模型,设计了可存储于Hadoop HDFS的矢量文件格式;其次,根据两阶段的过滤-精炼策略,对Map输入数据分片、选择查询处理过程及Reduce结果合并等关键步骤进行了详细阐述;最后,基于上述技术,利用Hadoop集群环境对所提出的方法进行验证,该方法具有较好的可行性和较高的效率.  相似文献   

6.
Hadoop分布式文件系统(hadoop distributed file system,HDFS)因其稳定高效、低成本等优势,已被很多大型企业广泛使用.针对HDFS海量小文件存储时元数据服务器节点内存开销过大,合并文件中小文件访问效率不高的问题,提出一种改进的基于混合索引的小文件存储策略,应用分类器分类标记小文件,并在元数据服务器建立H-B+树索引,在存储节点根据小文件大小建立不同的块内索引,达到提高小文件访问效率的目标.实现中采用缓存结构,以提高客户端访问的响应速度,同时也有利于元数据服务器节点的内存负载.实验结果表明,基于混合索引的小文件存储策略能有效提高小文件访问效率,并显著降低元数据节点内存开销.  相似文献   

7.
介绍计算机取证的相关知识,分析实现计算机取证系统所涉及的硬盘的数据组织格式、文件系统解读、文件发现技术、删除数据的恢复技术等核心技术,为进一步实现计算机取证系统提供技术支撑.  相似文献   

8.
以云计算环境下大数据存储技术为研究对象,首先介绍了云计算环境下主要的两种典型的分布式存储系统,即Googk的GFS和Hadoop的HDFS;对其中的数据存储技术进行了专门分析,从可扩展性和延迟性(如何支持海量小文件的存储)、容错性(在数据丢失时进行数据恢复)和海量数据存储的实时性这3个方面对现有技术进行了评价.在此基础上,提出了分布式文件系统的系统架构.最后给出了研究展望.  相似文献   

9.
云存储是分布式存储技术与虚拟化技术结合的产物,是分布式存储技术的最新发展.云存储意味着存储可以作为一种服务,通过互联网提供给用户.相对于当前主从(Master/Slave)结构的GFS(Google File System),HDFS(Hadoop Distributed File System),Sector,KFS...  相似文献   

10.
In cloud computing,the number of replicas and deployment strategy have extensive impacts on user's requirement and storage efficiency.Therefore,in this paper,a new definition of file access popularity according to users' preferences,and its prediction algorithm are provided to predict file access trend with historical data.Files are sorted by priority depending on their popularity.A mathematical model between file access popularity and the number of replicas is built so that the reliability is increased efficiently.Most importantly,we present an optimal strategy of dynamic replicas deployment based on the file access popularity strategy with the overall concern of nodes' performance and load condition.By this strategy,files with high priority will be deployed on nodes with better performance therefore higher quality of service is guaranteed.The strategy is realized in the Hadoop platform.Performance is compared with that of default strategy in Hadoop and CDRM strategy.The result shows that the proposed strategy can not only maintain the system load balance,but also supply better service performance,which is consistent with the theoretical analysis.  相似文献   

11.
从大规模数据库中挖掘非显著性特征数据时,容易产生大量数据通信和中间数据,存在大量交集操作,影响挖掘实时性。为此,提出一种新的基于Hadoop分布式架构的非显著性特征数据实时挖掘方法。对数据显著度进行检测,提取非显著性特征;搭建Hadoop分布式架构硬件结构,按照非显著性特征数据挖掘的特性和功能,建立Hadoop分布式架构非显著性特征数据挖掘软件架构;包括交互层、应用层、非显著性特征数据挖掘层和分布式计算层。把大数据集分割为若干数据块,将数据块分配至所有计算节点,依据非显著性特征进行并行计算,将map阶段的本地输出结果合并在一起,降低节点间数据交换量。通过reduce函数把所有计算节点的临时文件合并为垂直项集,求出项支持度。当无更多频繁项集的数据输出时,即可得到非显著性特征数据。实验结果表明,所提方法挖掘结果可靠,实时性强。  相似文献   

12.
基于PKI的HDFS认证及安全传输机制研究   总被引:1,自引:0,他引:1  
为解决Hadoop核心子项目Hadoop分布式文件系统(HDFS)文件服务过程中存在的认证及安全传输问题,对当前所采用的Kerberos方案进行了详细的分析,针对其在安全性和效率性方面存在的缺陷,提出将基于PKI的数字证书认证技术及基于数字信封的AES对称加密技术应用到HDFS的安全机制中。分析表明,该安全机制与Kerberos相比,能够为HDFS文件服务提供更安全、更高效的解决方案。  相似文献   

13.
云存储专注于解决云计算系统中海量数据文件的存储问题;文件系统用来管理大量的文件信息,并负责对文件的存储空间进行组织分配;分布式文件系统不仅要管理本地计算机的数据文件,同时还要管理整个存储系统中的数据文件。文章首先对云计算技术进行介绍,然后引出云存储的概念,并通过对云存储的技术原理、性能优势等进行分析,指出分布式文件系统对于云存储技术的重要性;最后对现有的云存储分布式文件系统进行详细论述。全文工作将指导我们进一步深入研究云存储技术。  相似文献   

14.
随着智能电网和通信技术的迅速发展,电网系统采集的用户数据规模呈指数增长,传统电网负荷预测方法难以满足海量负荷数据情形下的高效分析和计算需求。据此,依托电力系统数据采集云平台,提出一种基于云计算和改进极限学习机的电网负荷预测模型,采用Map-Reduce网络架构,部署于Hadoop平台,利用分布式计算方式进行电网负荷的精准建模和预测分析。结果表明,相比已有方法,本研究方法具有负荷预测精度高、运行速度快的优势,可为后续智能电网系统建设及管理运用提供一种新颖的解决思路。  相似文献   

15.
为解决传统推理引擎在进行大规模OWL本体数据的SWRL规则推理时存在的计算性能和可扩展性不足等问题,提出了云计算环境下的SWRL规则分布式推理框架CloudSWRL.根据SWRL规则语义,并以Hadoop开源云计算框架为基础,设计了OWL本体在HBase分布式数据库中的存储策略,定义了SWRL规则解析模型和相关推理中间数据模型,提出了在DL-safe限制下基于MapReduce的SWRL规则分布式推理算法.实验结果表明,在对大规模OWL本体进行SWRL规则推理时,CloudSWRL框架在计算性能和可扩展性方面均优于传统推理引擎.  相似文献   

16.
传统特征提取方法不适于大数据特征提取,提取效率低;为此,提出一种新的基于云计算的大数据关键特征高效提取方法。介绍了云计算中的MapReduce编程模型,给出Map与Reduce两个阶段的任务执行过程,通过MapReduce编程模型对大数据关键特征提取方法进行编程和处理,在云计算中实现高效运算。通过样本局部特征对特征集合进行评价,选择大数据关键特征。通过相空间重建保证大数据特征的不变性,在此基础上,引入关联维实现大数据关键特征的提取。实验结果表明,采用所提方法对大数据关键特征进行提取,可行性和效率高,与其他方法相比有更好的性能。  相似文献   

17.
Hadoop作为处理大数据的一个优秀分布式计算框架,在企业应用非常普通。然而Hadoop集群部署需要考虑各组件的兼容性、编译问题及繁琐的组件参数配置,初学者往往耗时几天也不能部署成功。Ambari是一种支持Hadoop集群部署、监控和管理的开源工具。针对Hadoop集群部署的复杂性,提出基于Ambari工具部署Hadoop集群各组件的实践方法并讨论了快速部署的若干要点及重要步骤;通过Ambari工具,完成了Hadoop生态圈最小化集群大部分常用组件的快速部署,如HDFS、HBase、Hive、Pig、Oozie、Zookeeper、Sqoop、Spark、Storm、Kafka、Flume等;项目实践表明:利用Ambari工具能够在8 h内部署完毕Hadoop集群,相比较传统手工部署方式,Ambari工具极大提高了Hadoop集群部署的效率及成功率。  相似文献   

18.
文件放置问题一直是分布式存储领域的研究热点。分布式文件存储系统HDFS随机选择节点完成文件放置,存在访问负载分布不均衡的缺点。研究人员提出大量基于文件访问热度信息的放置算法;但是,文件的访问热度信息是动态变化的,难以准确预测。提出一种不依赖访问热度信息的分布式文件放置算法;该算法仅使用文件的创建时间信息,利用文件已创建时间与访问热度之间的相关性,首先将时间进行区间划分,然后统计出各节点在不同时间区间内所创建文件的数据量,放置过程中保持同一时间区间的数据量在不同节点间大致相同。实验结果表明,该算法不仅可以使各节点的存储负载达到均衡,还能够提升访问负载的均衡,消除因文件访问热度不均而导致的性能瓶颈。  相似文献   

19.
MapReduce编程模型被看作是Hadoop的核心组件,一直以来都受到广泛的应用和研究,但针对Hadoop云平台的性能研究主要集中在配置调优和分布式算法等方面,缺乏对Hadoop加速比性能模型的理论研究.针对此问题提出了Hadoop云平台加速比性能模型,并分别在同构机群和异构机群架构上对该模型进行了分析.针对同构机群提出了3种I/O负载模型,并指出了其对加速比的影响;指出了异构机群不适合做Hadoop云平台的原因及异构性对Hadoop云平台造成的影响.这些研究对Hadoop云计算平台的搭建及如何提高Hadoop云平台加速比性能有很好的指导作用,提供了理论依据.  相似文献   

20.
大数据空间分析是 Cyber-GIS 的重要方面。如何利用现有的网络基础设施(比如大规模计算集群)对大数据进行并行分布式空间分析仍然是一大难题。为此,提出一种基于 MapReduce 的空间权重创建方法。该方法依托Hadoop 框架组织计算资源,基于 MapReduce 模式从大规模空间数据集中高效创建出空间权重:大空间数据被分为多个数据块,将映射器分布给计算集群中的不同节点,以便在数据中寻找出空间对象的相邻对象,由约简器从不同节点处收集相关结果并生成权重文件。利用 Amazon 公司弹性 MapReduce 的 Hadoop 框架,从人工空间数据中创建基于邻近概念的权重矩阵进行仿真。实验结果表明,该方法的性能优于传统方法,解决了大数据的空间权重创建问题。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号