基于Hadoop的海量统计小文件存取优化方案 Accessing Optimization of Massive SmaII StatisticaI FiIes based on Hadoop期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

基于Hadoop的海量统计小文件存取优化方案

作者单位：	;1.聊城大学计算机学院;2.山东省统计局数据管理中心

摘要：	Hadoop作为一个开源的并行计算框架,它提供了一个分布式的文件存储系统HDFS.然而,当处理海量小文件时会产生NameNode内存使用率较高、存取性能并不理想的问题,导致NameNode成为系统瓶颈,从而制约了文件系统的可扩展性.本文结合统计工作,提出了一种小文件存储的优化策略,在HDFS之上增加小文件预处理模块将文件进行分类,合并成Mapfile,并建立全局索引,另外该策略引入了索引预取机制和缓存机制.实验证明,该方法能有效提高大批量小文件的存取性能.
关键词：	HDFS 小文件预处理模块索引预取缓存机制
Accessing Optimization of Massive SmaII StatisticaI FiIes based on Hadoop

Abstract:

Keywords:
本文献已被 CNKI 万方数据等数据库收录！