首页 | 本学科首页   官方微博 | 高级检索  
     检索      

提高集群系统稳定性的自动化管理方法
引用本文:魏勇,邢莉,武林平,罗红兵.提高集群系统稳定性的自动化管理方法[J].华中科技大学学报(自然科学版),2011,39(Z1):144-147.
作者姓名:魏勇  邢莉  武林平  罗红兵
作者单位:北京应用物理与计算数学研究所高性能计算中心,北京,100094
基金项目:国家自然科学基金资助项目(60803045); 国家高技术研究发展计划资助项目(2006AA01A107,2009AA01A134); 中国工程物理研究院科学技术发展基金资助项目(2010B0403058)
摘    要:为了提升网格节点集群平台的稳定性,提出了一种应用于大规模集群系统的自动管理方法,将该方法部署到本单位曙光5000集群上,取得了较好运行效果.分析了曙光5000使用过程中发生的3类故障模式:计算节点死机,NIS客户端系统失效和违规作业;根据每类故障的发展特征,实现了处理这些故障模式的系统故障自动管理方法;实际运行效果表明该方法能够提高作业成功率,降低计算节点失效率.

关 键 词:故障自动管理  中国国家网格  集群系统  稳定性  主动容错

Automated management method for availability improvement of cluster systems
Wei Yong,Xing Li,Wu Linping,Luo Hongbing.Automated management method for availability improvement of cluster systems[J].JOURNAL OF HUAZHONG UNIVERSITY OF SCIENCE AND TECHNOLOGY.NATURE SCIENCE,2011,39(Z1):144-147.
Authors:Wei Yong  Xing Li  Wu Linping  Luo Hongbing
Institution:Wei Yong Xing Li Wu Linping Luo Hongbing(High Performance Computing Center,Institute of Applied Physics and Computational Mathematics,Beijing 100094,China)
Abstract:To improve the availability of cluster systems,the automated systems management method was introduced.This method was implemented during the management of Dawning 5000 cluster system: firstly,three important fault models of Dawning 5000 were analyzed,including crash of computing nodes,the failure of NIS(network information service) client,and abnormal jobs;second,for every fault model,the automated systems management method was implemented.The running results show that this method can increase complete job ...
Keywords:automated fault management  China national grid  cluster systems  availability  proactive fault tolerance  
本文献已被 CNKI 万方数据 等数据库收录!
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号