首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到17条相似文献,搜索用时 312 毫秒
1.
为了保证大规模集群系统的可靠性和可用性,设计并实现了一个面向集群消息传递并行程序的容错系统。该系统采用检查点设置与卷回恢复技术,提出了基于内存排除的退出重进入并行环境策略,实现了对用户程序完全透明的容错功能、进程迁移以及系统自动重构。实验结果表明:检查点设置和系统恢复开销小于10%,符合大规模并行程序容错功能的要求。该系统提高了集群系统的可靠性和可用性,其设计结构和实现方法可以方便地移植到其他消息传递系统。  相似文献   

2.
在并行和分布式计算环境中,随着系统规模的增长,系统出错的概率大大增加.为保证分布式系统的高可靠性,检查点/回滚恢复技术是一种广泛使用的容错技术.在对传统检查点技术进行分析和评述的基础上,介绍了分布式检查点系统设计的关键技术及实现方法.  相似文献   

3.
郑杰辉 《科技资讯》2009,(25):32-32
并行虚拟机上的容错技术是一个研究热点。本文在原有PVM系统功能的基础上,应用检查点卷回技术设计了一个FTPVM系统,详细探讨了系统的结构设计及主要功能的实现。  相似文献   

4.
开放网格服务体系结构(OGSA)中的服务容错需要可扩展的、灵活的容错框架,能够支持容错策略与应用程序的分离.针对这一需求,提出了一种基于OGSA的层次式容错处理框架.框架能根据不同服务质量需要灵活设置故障处理策略,选择不同容错机制;在此框架下,实现了基于服务实例池的热备份以及基于服务检查点的服务重构等容错机制.该容错框架及机制应用于HUSTgrid平台,较好地满足了网格服务的容错需要,并在应用系统CoGIS中得到了验证.  相似文献   

5.
设置检查点是保存和恢复进程运行状态的一种重要技术,是实现容错、卷回调试和进程迁移的重要手段,研究了全透明检查点系统Epckpt在检查点技术的实现方法和机制上的局限性,给出了有效的改进方案,该方案可以实现进程号的恢复和对用户文件的检查点设置,同时采用检查点写复制缓冲机器提高了原有的检查点算法的性能。  相似文献   

6.
无线车载视频系统具有监控车内信息和车辆定位的功能.本系统主要分为以下3个模块:定位模块、设备参数通信模块、报警及透明传输模块.定位模块通过卫星获取位置信息.设备参数通信模块通过显示屏修改参数,并把参数传送给远端服务器.报警及透明传输模块通过开关触发报警,平台确认状态后接受报警.  相似文献   

7.
软件容错技术是保证系统高可靠性及高可信性的有力工具。设计并实现了一种在VxWorks系统下基于检查点的任务恢复机制。通过对VxWorks系统下检查点文件内容的分析,采用3种方法来解决检查点的任务恢复问题:基于内存预先分配的主动内存管理,解决任务恢复时数据内存地址变化的问题;建立系统内核对象池,实现支持多任务之间同步和通信的内核对象的恢复;设计用户层任务恢复中间件,实现用户级检查点设置和任务恢复。最后设计基于VxWorks和PowerPC的计算平台原理样机,通过对单任务、多个单任务、多任务通讯、以及多任务协调工作4个测试用例的分析表明,所设计的基于检查点的任务恢复实现方案能正确保存任务关键信息及保证任务恢复的正确性和一致性。  相似文献   

8.
根据双机容错系统故障检测和诊断、仲裁技术的常用方案及特点,结合某在研双机容错系统,提出了一种基于FPGA容错控制器的设计方案.仲裁模块作为容错控制器的核心模块,可根据双机工作的监测信号负责完成主备机切换功能.为了实现软硬件心跳故障监控功能,在FPGA内嵌了WTD模块.同时,全局时钟引用于各个模块后,良好消除了输出信号的毛刺问题.实验结果表明, 该设计方案满足系统要求,可靠性较好.  相似文献   

9.
为了定量地分析评测IP通信系统性能或网络应用程序性能,提出了通信过程追踪系统的体系结构,阐述了通信过程追踪系统的基本工作原理,设计了该系统各主要模块的工作流程并实现了原型系统.通信追踪系统的主要模块(调度模块、追踪模块、Traceroute测量模块、返回追踪结果模块和结果显示模块)分布式地运行在监测中心和位于网络不同位置的探针上,位于监测中心上的调度模块通过策略系统协调各探针上的模块功能,共同完成通信过程追踪功能.实验结果表明,该系统原理可行,在网络性能评估方面能够发挥作用.  相似文献   

10.
网络应用软件监控系统同步与容错的设计与实现   总被引:1,自引:0,他引:1  
对SNMP中MIB信息和协议数据单元进行扩充,采用面向对象的技术,设计并实现了面向应用软件的网络监控系统。该系统提供了对应用程序类中成员变量和成员函数的监控功能。研究了管理站点和管理代理通信中存在的一些需要容错的问题以及管理代理和监控模块间通信引入同步机制的必要性,论述了4种被动容错机制和1种主动客错机制以及信号灯机制的设计和实现过程。被动容错机制包括重传机制和MIB树不一致恢复机制。主动容错机制采用双socket连接,以提高信息传输的可靠性。信号灯机制用于实现管理代理和监控模块间同步通信,从而可实现监控模块、管理代理、管理站点间实时、准确的信息交换与传输。  相似文献   

11.
This paper describes a parallel computing platform using the existing facilities for the digital watershed model. In this paper, distributed multi-layered structure is applied to the computer cluster system, and the MPI-2 is adopted as a mature parallel programming standard. An agent is introduced which makes it possible to be multi-level fault-tolerant in software development. The communication protocol based on checkpointing and rollback recovery mechanism can realize the transaction reprocessing. Compared with conventional platform, the new system is able to make better use of the computing resource. Experimental results show the speedup ratio of the platform is almost 4 times as that of the conventional one, which demonstrates the high efficiency and good performance of the new approach.  相似文献   

12.
远程高性能计算环境的设计与实现技术   总被引:1,自引:0,他引:1  
Ri CE(remote high computing environm ent)系统旨在建立以高性能并行计算机为计算资源的远程计算环境。系统合理划分本地机和远端机的工作任务 ,引入增量更新、压缩传送、检查点设置和恢复等多种传输措施 ,并集成了负载平衡工具 ,提供了身份检查、日志记录等安全机制 ,改变了传统的 Telnet工作模式。具有联网、远程执行过程对用户透明、系统安全性好和适应我国低带宽、实时性差、可靠性低的网络现状的特点。用户可以以较低的成本方便地使用远程计算机系统 ,从而充分发挥高性能计算机的性能。 Ri CE系统目前已在曙光 2 0 0 0和 IBM SP2等系统上运行通过 ,表明该系统性能良好 ,达到了系统设计目标  相似文献   

13.
在分析导致I/O节点失效主要原因的基础上, 提出一种有效的并行文件系统容错方法: 子文件循环冗余备份. 该方法保证了I/O节点失效时并行文件的正常访问, 提高了并行文件系统的可靠性和有效性.  相似文献   

14.
组合导航系统中的联邦滤波算法研究   总被引:4,自引:0,他引:4  
分析了联邦滤波算法的理论基础,并讨论了联邦滤波器的4种设计方案,针对一多传感器组合导航系统进行了仿真,仿真结果表明了联邦滤波算法在估计精度、容错性及数据处理能力等方面具有很好的性能,可以实现未来组合导航高精度,高容错性高可靠性。  相似文献   

15.
<正> Due to the mobility of mobile hosts,checkpoints and message logs of the computing process may disperseover different mobile support stations in the checkpointing and rollback recovery protocol for mobilecomputing.Three existing checkpoint handoff schemes do not give well consideration to the efficiency offailure-free process execution and the recovery speed of the failure process at the same time.A dynamicadaptive handoff management of the checkpointing and rollback recovery protocol for mobile computing isproposed in this paper.According to the individual feature and current state of each mobile host,differentimplementations are selected dynamically to complete the handoff process upon the handoff event.Performance analyses show that the proposed handoff management incurs a low loss of performance duringfailure-free and achieves a quick recovery upon the process fault.  相似文献   

16.
为了提高云存储数据的容错性和可靠性,设计了一个能对云存储文件进行容错编码的可恢复性验证方案.该方案改进现有旋转里德-所罗门码(reed solomon,RS)编码为异或(XOR)旋转编码,并提出一种对编码矩阵的列向量标签快速模幂运算的验证方法.性能和安全性分析表明,该方案具有较低的通信代价和计算代价,以及高效的数据恢复功能.  相似文献   

17.
基于高速通信的多Agent保护系统,能够通过各个空间上分布的保护Agent之间的通信和配合来提高保护动作的可靠性、适应性和容错能力,但是保护Agent之间的通信延时对于基于多Agent的保护系统的性能有重要的影响.为了分析确定基于多Agent保护系统的应用条件,利用Network S imu lator网络通信仿真软件,对不同通信协议、通信通道带宽和通信组织方式对继电保护系统通信延时的影响进行了仿真分析.仿真结果表明,在宽带以太网的基础上,利用多Agent通信能够满足继电保护系统的实时性要求.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号