您现在的位置: 首页 > 中科院成果专区 > 一种用于机群容错的系统和方法
一种用于机群容错的系统和方法

一种用于机群容错的系统和方法

  • 专利类型:发明专利
  • 有效期:不限
  • 发布日期:2021-07-15
  • 技术成熟度:详情咨询
交易价格: ¥面议
  • 法律状态核实
  • 签署交易协议
  • 代办官方过户
  • 交易成功

专利推荐

  • 技术(专利)类型 发明专利
  • 申请号/专利号 CN200810211566.3 
  • 技术(专利)名称 一种用于机群容错的系统和方法 
  • 项目单位 中国科学院计算技术研究所
  • 发明人 霍志刚 
  • 行业类别 物理
  • 技术成熟度 详情咨询
  • 交易价格 ¥面议
  • 联系人 李志文
  • 发布时间 2021-07-15  
  • 01

    项目简介

    本发明公开了一种用于机群容错的系统和方法。该系统包括:检查点服务器,其网络连接到所述多个结点,用于收集并行应用的所有进程的信息,向结点发送监控请求,并响应来自结点的检查点操作请求,并将检查点文件保存于检查点文件服务器上;在检查点切取操作完成后,执行检查点恢复操作;检查点文件服务器,其网络连接到所述多个结点,用于存储检查点文件,并在进程恢复过程中提供检查点文件访问支持;故障监测模块,位于所述结点上,用于根据所述监控请求来监测本地结点的操作系统的运行状态和所述监控请求指定进程的指定运行状态,以及所述监控请求指定的硬件部件的指定状态,并在监测到故障时向所述检查点服务器发送检查点操作请求。
    展开
  • 02

    说明书

    1、一种用于机群容错的系统,所述机群包括网络连接的多个结点,其特 征是,该系统包括: 检查点服务器,其网络连接到所述多个结点,用于收集并行应用的所有进 程的信息,根据进程信息,向结点发送监控请求,并响应来自结点的检查点操 作请求,执行远程检查点切取操作,并将检查点文件保存于检查点文件服务器 上;在检查点切取操作完成后,执行检查点恢复操作; 检查点文件服务器,其网络连接到所述多个结点,用于存储检查点文件, 并在进程恢复过程中提供检查点文件访问支持; 故障监测模块,位于所述结点上,用于根据所述监控请求来监测本地结点 的操作系统的运行状态和所述监控请求指定进程的指定运行状态,以及所述监 控请求指定的硬件部件的指定状态,并在监测到故障时向所述检查点服务器发 送检查点操作请求和向被监测的并行应用的其他进程广播通知该进程正在进 行检查点操作。 2、根据权利要求1所述的一种用于机群容错的系统,其特征是,所述检 查点服务器包括: 并行应用进程管理器,用于在机群结点中加载并行应用,并收集并行应用 的所有进程的信息; 并行应用注册管理器,用于注册并行应用的所有进程的信息,并根据进程 信息,向结点发送监控请求; 检查点切取模块,用于响应来自结点的检查点操作请求,执行远程检查点 切取操作,将检查点文件保存于检查点文件服务器中,并在检查点切取操作完 成后,将检查点文件的位置和对应进程在其并行应用中的逻辑序号信息发送给 所述并行应用进程管理器; 所述并行应用进程管理器还用于在收到所述检查点文件的位置和对应进 程的逻辑序号信息后,执行进程恢复操作。 3、根据权利要求1或2所述的一种用于机群容错的系统,其特征是,在 检查点服务器进行远程检查点切取过程中,通过远程直接内存访问方式获取出 现故障的进程的所有状态。 4、根据权利要求1或2所述的一种用于机群容错的系统,其特征是,所 述结点包括: 用于通信及状态监控的协处理器; 所述协处理器上的通信系统检查点模块,用于实现通信设备的检查点切取 并将通信设备的检查点文件保存到所述检查点文件服务器上,和根据所述通信 设备的检查点实现通信设备的断点恢复; 其中,所述故障监测模块运行在该协处理器上。 5、根据权利要求4所述的一种用于机群容错的系统,其特征是,所述协 处理器上还包括: 远程检查点服务模块,用于响应来自所述检查点服务器的读取本地进程状 态、本地通信设备的状态的请求,和响应来自本地结点的故障监测模块的请求 向检查点服务器发出启动检查点操作的请求并向检查点服务器发送启动检查 点操作的请求。 6、根据权利要求1或2所述的一种用于机群容错的系统,其特征是,所 述结点还包括: 主机方处理器,该主机方处理器上的内核状态监控模块和进程恢复模块; 其中,当该所述内核状态监控模块监测到操作系统内核状态出现故障时, 向所述故障监测模块发送结点故障恢复请求;所述故障监测模块在接收到所述 结点故障恢复请求后,向所述检查点服务器发送检查点操作请求; 所述进程恢复模块用于接收并行应用进程管理器发来的待恢复进程的检 查点文件的位置和逻辑序号信息,读取检查点文件,完成进程恢复过程。 7、一种用于机群容错的方法,其特征是,包括如下步骤: 步骤S1,在检查点服务器上注册并行应用并向故障监测模块发送结点监 控请求; 步骤S2:故障监测模块在收到监控请求后监测故障; 步骤S3,当故障监测模块监测到故障时,向检查点服务器发送检查点操 作请求; 步骤S4:检查点服务器接收到检查点操作请求后执行检查点切取; 步骤S5:检查点切取完成后,检查点服务器执行进程恢复。 8、根据权利要求7所述的用于机群容错的方法,其特征是,在步骤S2 中,所述的监测故障的方法包括: 根据时钟中断计数超出预定范围,判断操作系统故障; 根据操作系统内部接口调用失败,判断操作系统故障; 根据表征硬件状态的参数超出预先设定的范围,判断硬件故障; 根据应用进程或后台服务进程遇到失败的的系统调用或不该收到的信号, 判断进程故障。 9、根据权利要求7所述的用于机群容错的方法,其特征是,在步骤S3 中,还包括:主机方处理器上的内核状态监控模块监测内核状态是否出现故障, 并在监测到内核状态出现故障时,向故障监测模块发送故障恢复请求,当故障 监测模块收到内核状态监控模块发来的故障恢复请求时,向检查点服务器发送 检查点操作请求。 10、根据权利要求7所述的用于机群容错的方法,其特征是,在步骤S3 中,还包括当故障监测模块监测到故障时,首先冻结本地所有被监测的进程打 开的通信端口。 11、根据权利要求7-10任一项所述的用于机群容错的方法,其特征是, 该步骤S3还包括:在向检查点服务器发送检查点操作请求后,通过广播将故 障进程正在执行检查点操作通知被监测应用中的其它进程。 12、根据权利要求7所述的用于机群容错的方法,其特征是,在步骤S4 中,所述检查点切取包括如下步骤: 步骤S41,加载故障进程所在结点的操作系统符号表; 步骤S42,加载故障进程所在结点的操作系统核心类型表; 步骤S43,根据故障进程号查找故障进程的进程控制块,并复制到检查点 服务器的本地缓冲区中; 步骤S44,创建检查点映像文件,并保存检查点文件内容。 13、根据权利要求7或12所述的用于机群容错的方法,其特征是,步骤 S5具体包括如下步骤: 步骤S51,确定进程恢复所用的结点; 步骤S52,并行应用进程管理器向进程恢复所用的结点发送恢复进程命 令; 步骤S53,进程恢复所用的结点接收恢复进程命令,执行进程恢复。 14、根据权利要求13所述的用于机群容错的方法,其特征是,步骤S53 还包括:在进程的恢复过程中,在该进程的通信端口恢复的末尾,用于通信及 状态监控的协处理器向并行应用的其它进程广播通知继续通信。 15、根据权利要求13所述的用于机群容错的方法,其特征是,步骤S53 还包括:判断并行应用的所有故障进程是否全部恢复,如果是,则被监测的并 行应用继续运行,如果否,则等待所有故障进程全部恢复。
    展开

专利技术附图

< >

服务流程

过户资料

  • 买卖双方需提供资料
  • 平台提供
  • 过户后您将获得
  • 买家
  • 卖家
  • 公司
  • 企业营业执照
  • 企业营业执照

    专利注册证原件

  • 个人
  • 身份证

    个体户营业执照

  • 身份证

    专利注册证原件

  • 专利代理委托书

    转让申请书

    转让协议

  • 手续合格通知书

    专利证书

    专利利登记簿副本

安全保障

  • 品类齐全

    海量资源库,平台整合几十万闲置资源。
  • 交易保障

    完善的资金保障体系确保买卖双方资金安全。
  • 专人跟进

    专业交易顾问全程服跟进,确保交易流畅。
  • 快速响应

    专业在线/电话客服服务,快速响应贴心服务。
  • 售后无忧

    资质过硬,国内大知识产权服务平台。
  • -我要咨询-
  • ×
联系人:
专利名称: *
联系电话: *
验证码:

提交

在线客服

在线咨询

010-83278899

返回顶部