跳转至

灾难恢复演练手册 (Disaster Recovery Runbook)

在 Cyberun Cloud,我们不寄希望于运气的眷顾。我们为最坏的情况做好准备。本文档概述了针对 区域级故障 (Region Failure) 的标准恢复程序。

恢复目标 (Recovery Objectives)

基于我们的异步地理镜像架构,我们承诺以下指标:

  • RPO (恢复点目标): < 10 秒。在灾难发生时,最多可能丢失最后 10 秒内写入的数据。
  • RTO (恢复时间目标): < 5 分钟。从故障确认为“不可恢复”到服务在备用区域重新上线所需的时间。

故障转移流程图 (Failover Workflow)

stateDiagram-v2
    direction TB

    state "正常运行 (Normal)" as Normal
    state "故障检测 (Detect)" as Detect
    state "Karmada 重新调度" as Reschedule
    state "DNS 切换 (Switch)" as DNS
    state "服务恢复 (Recovered)" as Recovered

    Normal --> Detect : 心跳丢失 > 30s
    Detect --> Reschedule : 标记集群不健康
    Reschedule --> DNS : 更新 GeoDNS 记录
    DNS --> Recovered : 流量路由至备用区

演练场景:纽约数据中心完全断电

假设 Destroyer (NY) 集群因不可抗力完全离线:

  1. 自动检测: 东京控制面 (Carrier) 在 30 秒内检测到纽约节点状态为 Unknown
  2. 存活探针: 系统自动触发对纽约边缘网关的外部 Ping 测试,确认并非单纯的控制面网络抖动。
  3. 疏散指令: 运维团队(或自动化 Operator)执行 karmadactl cordon cluster destroyer-ny
  4. 工作负载迁移: Karmada 自动将 Deployment 的副本数在 Aegis (DE) 或其他备用集群中扩容。
  5. 存储挂载: 备用集群通过 WireGuard 连接到异地的数据副本(如果主存储也同时离线,则连接到异步镜像的从属存储)。