首页 | 本学科首页   官方微博 | 高级检索  
     检索      

SingleMapReduce:单一输出HDFS文件的MapReduce编程模型
引用本文:陈吉荣,乐嘉锦.SingleMapReduce:单一输出HDFS文件的MapReduce编程模型[J].华南理工大学学报(自然科学版),2014(5):135-142.
作者姓名:陈吉荣  乐嘉锦
作者单位:东华大学计算机科学与技术学院
基金项目:国家核高基专项(2010ZX01042-001-003)
摘    要:经典MapReduce编程模型的输出结果不是单一的Hadoop分布式文件系统(HDFS)文件,为此,文中提出了单一输出文件的MapReduce编程模型:SingleMapReduce.该模型通过拦截Job Successful状态,将输出目录下的所有文件"整合"为单一文件.文中给出了HDFS的4个重要特征,提出了HDFS的"块典型分布"和"块非典型分布"的概念,设计了一种通过整合元数据来达到整合文件的算法.理论分析和实验结果表明:该模型的MapReduce计算的输出结果为单一文件;该模型可以再次以文件的形式对MapReduce计算的输出结果进行分片,并可用并行方式导入大表或大文件到HDFS中;该模型间接支持了名称节点的扩展性.

关 键 词:分布式计算系统  元数据  MapReduce  Hadoop分布式文件系统  名称节点  数据节点  
本文献已被 CNKI 等数据库收录!
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号