首页 | 本学科首页   官方微博 | 高级检索  
     检索      

集群系统运行状态监控软件设计
引用本文:武林平,张晓霞,王伟,罗红兵.集群系统运行状态监控软件设计[J].华中科技大学学报(自然科学版),2011,39(Z1):148-152.
作者姓名:武林平  张晓霞  王伟  罗红兵
作者单位:北京应用物理与计算数学研究所高性能计算中心,北京,100094
基金项目:国家自然科学基金资助项目(60803045); 国家高技术研究发展计划资助项目(2006AA01A107,2009AA01A134); 中国工程物理研究院科学技术发展基金资助项目(2010B0403058)
摘    要:结合现有监控方法,设计并实现了一种针对集群系统关键部件的多层次、集中式监控软件.该软件的监控状态参数丰富,涵盖了部件的物理状态、节点的负载状态、节点的事件信息状态和数字电路逻辑状态这4大类运行状态;其状态数据使用数据库集中存储,便于历史数据的检索与分析;状态数据具有统一时钟,能够再现集群系统历史某时刻的运行时场景.在实际系统上的运行结果表明:基于该软件实现的故障在线自动处理机制能够提高系统运行稳定性及作业的成功率.

关 键 词:集群系统  稳定性  资源管理  状态监控  故障在线自动处理

Design of runtime state monitoring software for cluster system
Wu Linping,Zhang Xiaoxia,Wang Wei,Luo Hongbing.Design of runtime state monitoring software for cluster system[J].JOURNAL OF HUAZHONG UNIVERSITY OF SCIENCE AND TECHNOLOGY.NATURE SCIENCE,2011,39(Z1):148-152.
Authors:Wu Linping  Zhang Xiaoxia  Wang Wei  Luo Hongbing
Institution:Wu Linping Zhang Xiaoxia Wang Wei Luo Hongbing(High Performance Computing Center,Institute of Applied Physics and Computational Mathematics,Beijing 100094,China)
Abstract:
Keywords:cluster system  stability  resource management  state monitoring  online fault management  
本文献已被 CNKI 万方数据 等数据库收录!
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号