首页 | 本学科首页   官方微博 | 高级检索  
     

面向集群的消息传递并行程序容错系统
引用本文:薛瑞尼,张悠慧,陈文光,郑纬民. 面向集群的消息传递并行程序容错系统[J]. 清华大学学报(自然科学版), 2006, 46(1): 67-69
作者姓名:薛瑞尼  张悠慧  陈文光  郑纬民
作者单位:清华大学,计算机科学与技术系,北京,100084;清华大学,计算机科学与技术系,北京,100084;清华大学,计算机科学与技术系,北京,100084;清华大学,计算机科学与技术系,北京,100084
摘    要:为了保证大规模集群系统的可靠性和可用性,设计并实现了一个面向集群消息传递并行程序的容错系统。该系统采用检查点设置与卷回恢复技术,提出了基于内存排除的退出重进入并行环境策略,实现了对用户程序完全透明的容错功能、进程迁移以及系统自动重构。实验结果表明:检查点设置和系统恢复开销小于10%,符合大规模并行程序容错功能的要求。该系统提高了集群系统的可靠性和可用性,其设计结构和实现方法可以方便地移植到其他消息传递系统。

关 键 词:容错技术  检查点  卷回恢复  消息传递接口  并行程序
文章编号:1000-0054(2006)01-0067-03
修稿时间:2004-12-15

Fault tolerance for cluster-oriented MPI parallel applications
XUE Ruini,ZHANG Youhui,CHEN Wenguang,ZHENG Weimin. Fault tolerance for cluster-oriented MPI parallel applications[J]. Journal of Tsinghua University(Science and Technology), 2006, 46(1): 67-69
Authors:XUE Ruini  ZHANG Youhui  CHEN Wenguang  ZHENG Weimin
Abstract:A fault tolerant run time system was developed for cluster-oriented message passing interface(MPI) parallel applications to guarantee system reliability and availability in high performance clusters.This system uses the checkpointing and rollback recovery technique,with user lever transparent fault tolerance,process migration,and system auto reconfiguration based on an "exit and reenter" parallel environment strategy.Test results suggest that the overhead is less then 10% to satisfy the basic requirements of parallel fault tolerance.The system improves the cluster reliability and availability and its structure and implementation scheme can be conveniently ported to other message passing systems.
Keywords:fault tolerance  checkpointing  rollback recovery  message passing interface  parallel application
本文献已被 CNKI 万方数据 等数据库收录!
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号