首页 | 本学科首页   官方微博 | 高级检索  
     检索      

通用网格容错框架研究
引用本文:石宣化,金海,羌卫中.通用网格容错框架研究[J].华中科技大学学报(自然科学版),2006,34(7):42-45.
作者姓名:石宣化  金海  羌卫中
作者单位:华中科技大学,计算机科学与技术学院,湖北,武汉,430074
基金项目:国家自然科学基金;中国教育科研网格计划ChinaGrid基金
摘    要:针对网格计算可靠性需求,提出一套网格计算容错框架,该容错框架包括两个方面:网格错误检测与网格错误处理.本容错框架通过提供一种层次式错误检测方式以及基于策略的通用错误处理方式来保证网格计算的可靠性.错误检测服务按照层次方式组织,最底层是本地错误检测器,它负责收集被检测对象的信息,发送到中间层的数据收集器,中间层数据收集器按照列表方式发送被检测对象的信息到顶层数据收集器.当错误检测器检测到运行错误时,按照决策分析的方法来提供灵活的错误处理方式.对系统的性能评测表明提出的通用网格容错框架具有很好的扩展性、高效性以及较低的额外开销.

关 键 词:错误检测  容错  基于策略的错误处理
文章编号:1671-4512(2006)07-0042-04
收稿时间:2005-04-30
修稿时间:2005年4月30日

A general fault-tolerance framework for grid computing
Shi Xuanhua,Jin Hai,Qiang Weizhong.A general fault-tolerance framework for grid computing[J].JOURNAL OF HUAZHONG UNIVERSITY OF SCIENCE AND TECHNOLOGY.NATURE SCIENCE,2006,34(7):42-45.
Authors:Shi Xuanhua  Jin Hai  Qiang Weizhong
Abstract:A general fault-tolerance framework for grid computing is proposed which are dealt with hierarchical structure fault detection services and policy-based fault-handling method, based on the requirements of reliable grid computing. The bottom of the fault detection service is local fault detector, which monitors the objects in local area and sends heartbeat messages to the middle data collector; the middle data collector sends the status list of the monitored objects to the top data collectors within specific interval; the top data collector is managed by an index server. When any fault detected, the system chooses an appropriate fault-handling method, such as checkpointing, retrying, replication. The results of the performance evaluation show that this framework is scalable, high-efficiency and low-overhead.
Keywords:fault detection  fault-tolerance  policy-based fault-handling
本文献已被 CNKI 维普 万方数据 等数据库收录!
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号