首页 | 本学科首页   官方微博 | 高级检索  
     

基于Hadoop的海量统计小文件存取优化方案
作者单位:;1.聊城大学计算机学院;2.山东省统计局数据管理中心
摘    要:Hadoop作为一个开源的并行计算框架,它提供了一个分布式的文件存储系统HDFS.然而,当处理海量小文件时会产生NameNode内存使用率较高、存取性能并不理想的问题,导致NameNode成为系统瓶颈,从而制约了文件系统的可扩展性.本文结合统计工作,提出了一种小文件存储的优化策略,在HDFS之上增加小文件预处理模块将文件进行分类,合并成Mapfile,并建立全局索引,另外该策略引入了索引预取机制和缓存机制.实验证明,该方法能有效提高大批量小文件的存取性能.

关 键 词:HDFS  小文件  预处理模块  索引预取  缓存机制

Accessing Optimization of Massive SmaII StatisticaI FiIes based on Hadoop
Abstract:
Keywords:
本文献已被 CNKI 万方数据 等数据库收录!
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号