SingleMapReduce:单一输出HDFS文件的MapReduce编程模型 |
| |
引用本文: | 陈吉荣,乐嘉锦.SingleMapReduce:单一输出HDFS文件的MapReduce编程模型[J].华南理工大学学报(自然科学版),2014(5):135-142. |
| |
作者姓名: | 陈吉荣 乐嘉锦 |
| |
作者单位: | 东华大学计算机科学与技术学院 |
| |
基金项目: | 国家核高基专项(2010ZX01042-001-003) |
| |
摘 要: | 经典MapReduce编程模型的输出结果不是单一的Hadoop分布式文件系统(HDFS)文件,为此,文中提出了单一输出文件的MapReduce编程模型:SingleMapReduce.该模型通过拦截Job Successful状态,将输出目录下的所有文件"整合"为单一文件.文中给出了HDFS的4个重要特征,提出了HDFS的"块典型分布"和"块非典型分布"的概念,设计了一种通过整合元数据来达到整合文件的算法.理论分析和实验结果表明:该模型的MapReduce计算的输出结果为单一文件;该模型可以再次以文件的形式对MapReduce计算的输出结果进行分片,并可用并行方式导入大表或大文件到HDFS中;该模型间接支持了名称节点的扩展性.
|
关 键 词: | 分布式计算系统 元数据 MapReduce Hadoop分布式文件系统 名称节点 数据节点 块 |
本文献已被 CNKI 等数据库收录! |
|