首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 156 毫秒
1.
基于 Hadoop 平台的相关系统得到了广泛应用。Hadoop 分布式文件系统(Hadoop distributed file system, HDFS)通过分布式的工作方式,负责处理海量文件数据。对 HDFS 而言,海量数据中的小文件存储问题制约着系统高效工作的能力。针对海量数据中小文件读写效率低的情况,提出一种基于 HBase(Hadoop database)的海量小文件高效存储方法,利用 HBase 的存储优势,将小文件直接存储于 HBase,从而有效减少元数据节点服务器(Name-Node)的负载,并对上层应用系统提供透明的访问接口。实验结果表明,该方法可以实现海量小文件的高效存储,提高 HDFS 环境下小文件的读写效率。  相似文献   

2.
对基于Hadoop的海量小文件存储进行优化,利用小文件内部存在的相互联系,进行小文件的归并操作;通过索引机制访问小文件及元数据缓存,并利用相关性强的小文件预取机制提高文件的读取效率。实验发现,优化后的方法降低了Hadoop名字节点的内存消耗,减少了查询时耗,提高了系统性能。  相似文献   

3.
Hadoop作为一个开源的并行计算框架,它提供了一个分布式的文件存储系统HDFS.然而,当处理海量小文件时会产生NameNode内存使用率较高、存取性能并不理想的问题,导致NameNode成为系统瓶颈,从而制约了文件系统的可扩展性.本文结合统计工作,提出了一种小文件存储的优化策略,在HDFS之上增加小文件预处理模块将文件进行分类,合并成Mapfile,并建立全局索引,另外该策略引入了索引预取机制和缓存机制.实验证明,该方法能有效提高大批量小文件的存取性能.  相似文献   

4.
Hadoop分布式文件系统(HDFS)设计之初是针对大文件的处理,但无法高效地针对小文件进行存储,因此提出了一种基于关联规则挖掘的高效的小文件存储方法——ARMFS。ARMFS通过对Hadoop系统的审计日志进行关联规则挖掘,获得小文件间的关联性,通过文件合并算法将小文件合并存储至HDFS;在请求HDFS文件时,根据关联规则挖掘得到的高频访问表和预取机制表提出预取算法来进一步提高文件访问效率。实验结果表明,ARMFS方法明显提高了NameNode的内存使用效率,对于小文件的下载速度和访问效率的改善十分有效。  相似文献   

5.
HDFS设计之初只考虑到如何更好地处理大文件,并没有针对海量小文件进行优化,因此,当使用HDFS管理海量指纹数据小文件时会出现Name Node内存负载过重、上传及查询性能过低等问题.采用Sequence File序列化技术进行小文件的合并,并且对于小文件合并、元数据存储、缓存策略等进行了针对性优化.实验证明,该优化方案可以有效地解决Name Node内存负载过重的问题,并且海量指纹数据小文件的上传和查询性能得到了提高.  相似文献   

6.
根据重复数据删除的特点,针对连续数据访问为主的应用,设计基于B+树的元数据索引结构;将元数据分为冷热两种,分别设计不同的元数据布局策略。研究结果表明,低能耗磁盘能够保持更长时间的待机状态以便节能,同时可以有效地减少重复数据删除时的随机磁盘访问次数。并且没有额外的硬件开销,实现仅在磁盘上存储索引,而不是之前研究中的在磁盘和内存中存储索引。   相似文献   

7.
提出了一种采用RAM-disk的混合存储系统,在计算节点的并行文件系统的元数据服务器和对象存储服务器组件中设置不同用途的RAM-disk,用于缓存各种访问模式的文件并提高系统的读写性能.结果表明,采用RAM-disk的混合存储系统可以明显提高系统的读写性能,同时可提高系统的可用性和可维性.  相似文献   

8.
在分析Mesos持久化存储原理的基础上,提出一种基于HDD-SSD混合存储的Mesos系统持久化存储优化方案。它为了解决HDFS频繁读写带来的I/O性能问题,将HDD-SSD混合存储的HDFS作为Mesos持久化层,并对内存冷页面迁出策略进行了优化。实验结果表明,所提出的方法不仅可以提高基于Mesos的系统I/O性能,而且能保证SSD的利用率,节省SSD的成本开销。  相似文献   

9.
针对由于磁盘I/O的性能瓶颈,基于磁盘的分布式文件系统无法为海量小文件存储提供高数据吞吐率和低访问延迟这一问题,设计并实现了一个基于虚拟内存的分布式文件系统——CarrierFS,它将数据存储于虚拟内存中,利用磁盘备份数据.在实现元数据和数据可扩展存储的基础上,CarrierFS设计了监管者模块来保证系统的可靠性.对CarrierFS和HDFS进行了性能测试,实验结果表明,CarrierFS对大文件和小文件的读写速度都具有明显的性能优势.当文件大小为256 Mbyte时,CarrierFS的写入速度大约是HDFS的1.30倍,读取速度大约是HDFS的1.95倍.当文件大小为32 Kbyte时,CarrierFS的写入速度大约是HDFS的3.0倍,读取速度大约是HDFS的3.4倍.  相似文献   

10.
针对传统索引算法在数字数据索引应用中存在的索引建立时间开销较大问题, 提出一种将B+树理论和算法应用于索引的设计方案. 在对B+树索引基础上, 建立了索引存储模型, 结合位图存储方式将B+树节点存储在存储介质上, 实现索引存储. 实验结果表明, 使用B+树, 可按路径读取, 节省了建立索引时间, 同时提高了B+树的稳定性, 在B+树节点存储的情况下访问键值信息, 索引速度得到较大提升.  相似文献   

11.
一种提高云存储中小文件存储效率的方案   总被引:3,自引:0,他引:3  
针对基于HDFS(Hadoop distribated file system)的云存储系统中小文件存储效率不高的问题,采用序列文件技术设计了一个云存储系统中小文件的处理方案.该方案利用多维属性决策理论,综合读文件时间、合并文件时间及节省内存空间大小等指标,得出合并小文件的最优方式,能够在消耗的时间和节省的内存空间之间取得平衡;设计基于层次分析法的系统负载预测算法对系统负载进行预测,从而实现负载均衡的目的;利用序列文件技术对小文件进行合并.实验结果表明,在不影响存储系统运行状况的基础上,该方案提高了小文件的存储效率.  相似文献   

12.
文件放置问题一直是分布式存储领域的研究热点。分布式文件存储系统HDFS随机选择节点完成文件放置,存在访问负载分布不均衡的缺点。研究人员提出大量基于文件访问热度信息的放置算法;但是,文件的访问热度信息是动态变化的,难以准确预测。提出一种不依赖访问热度信息的分布式文件放置算法;该算法仅使用文件的创建时间信息,利用文件已创建时间与访问热度之间的相关性,首先将时间进行区间划分,然后统计出各节点在不同时间区间内所创建文件的数据量,放置过程中保持同一时间区间的数据量在不同节点间大致相同。实验结果表明,该算法不仅可以使各节点的存储负载达到均衡,还能够提升访问负载的均衡,消除因文件访问热度不均而导致的性能瓶颈。  相似文献   

13.
The large scale and distribution of cloud computing storage have become the major challenges in cloud forensics for file extraction. Current disk forensic methods do not adapt to cloud computing well and the forensic research on distributed file system is inadequate. To address the forensic problems, this paper uses the Hadoop distributed file system (HDFS) as a case study and proposes a forensic method for efficient file extraction based on three-level (3L) mapping. First, HDFS is analyzed from overall architecture to local file system. Second, the 3L mapping of an HDFS file from HDFS namespace to data blocks on local file system is established and a recovery method for deleted files based on 3L mapping is presented. Third, a multi-node Hadoop framework via Xen virtualization platform is set up to test the performance of the method. The results indicate that the proposed method could succeed in efficient location of large files stored across data nodes, make selective image of disk data and get high recovery rate of deleted files.  相似文献   

14.
分布式存储系统中文件传输优化的设计与实现   总被引:2,自引:0,他引:2  
针对在基于FTP的传统文件传输系统中 ,批量小文件和大文件的传输效率很低的问题 ,研究了不同类型文件传输任务的优化方法 ,提出了文件的自适应传输策略 :对小文件的传输采用通道复用技术 ,对大文件的传输则采用并行传输 .以此为基础设计和实现了GDSS(广域网分布式存储系统 )的文件传输系统 .研究结果表明 ,广域网分布式存储系统中 ,批量小文件传输性能明显优于传统FTP ,而对于大文件的传输 ,由于采用分片并行的传输方式 ,其性能也比标准FTP的要好 .  相似文献   

15.
In cloud computing,the number of replicas and deployment strategy have extensive impacts on user's requirement and storage efficiency.Therefore,in this paper,a new definition of file access popularity according to users' preferences,and its prediction algorithm are provided to predict file access trend with historical data.Files are sorted by priority depending on their popularity.A mathematical model between file access popularity and the number of replicas is built so that the reliability is increased efficiently.Most importantly,we present an optimal strategy of dynamic replicas deployment based on the file access popularity strategy with the overall concern of nodes' performance and load condition.By this strategy,files with high priority will be deployed on nodes with better performance therefore higher quality of service is guaranteed.The strategy is realized in the Hadoop platform.Performance is compared with that of default strategy in Hadoop and CDRM strategy.The result shows that the proposed strategy can not only maintain the system load balance,but also supply better service performance,which is consistent with the theoretical analysis.  相似文献   

16.
将云计算技术应用于数据备份领域,  设计并实现了基于分布式文件系统(HDFS)的云数据备份系统. 该系统利用云存储技术, 应用已有的廉价计算机设备构建数据备份集群, 解决了用户数据备份/恢复业务的需要, 通过用户分群管理、 小文件合并上传、 恢复优先等策略进一步提高了系统性能. 实验结果表明,  云备份系统在安全性、 可扩展性、 经济性及可靠性上均具有一定的优势.  相似文献   

17.
Hadoop是一个由Java语言实现的软件框架,在一个计算机集群中对海量数据进行分布式计算,这个集群可以支持上千个节点和PB级别的数据.HDFS是专门为Hadoop设计的分布式文件系统,作为Hadoop最基本的构成元素,保证内容的完整性与可用性.但是HDFS的操作界面并不友好,必须通过命令行或者IDE插件来实现对文件的操作.在研究HDFS的架构的基础上,设计实现了基于WEB的HDFS可视化文件访问系统.  相似文献   

18.
The dynamics of a construction project generates a huge amount of information for processing. Most project information is recorded in digital files and managed in a decentralized way. Current document management tools do not consider the semantic relationships between files and then cannot discover files based on their content or ensure information consistency across various information repositories. This paper presents a semantic-discovery method for accessing project information across repositories. By adopting semantic web technologies, including extensible markup language (XML), ontology, and logic rules, the semantic-discovery tool can access project files by their properties and relations. The method has been applied to searching for files using documents from a real project. The results show that the semantic content of a file can be used to ensure that only related files are retrieved.  相似文献   

19.
基于差异的远程文件备份与恢复方法   总被引:2,自引:2,他引:0  
为了构建文件备份中心,提出一种基于差异的远程文件备份与恢复方法.利用快照技术在客户端维持文件的新旧两个版本,计算出这两个版本之间的差异形成文件差异集,传输到备份中心后重放该差异集实现文件备份.通常在客户端保存有与被恢复文件内容相同或者相似的文件,在恢复时这部分文件会被利用以实现差异恢复.实验结果表明,本方法与传统的文件备份系统相比,能显著减少网络流量,大幅提升备份与恢复的效率.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号