跳转至

Cyberun Cloud

灾难恢复演练手册

灾难恢复演练手册 (Disaster Recovery Runbook)

在 Cyberun Cloud，我们不寄希望于运气的眷顾。我们为最坏的情况做好准备。本文档概述了针对 区域级故障 (Region Failure) 的标准恢复程序。

恢复目标 (Recovery Objectives)

基于我们的异步地理镜像架构，我们承诺以下指标：

RPO (恢复点目标): < 10 秒。在灾难发生时，最多可能丢失最后 10 秒内写入的数据。
RTO (恢复时间目标): < 5 分钟。从故障确认为“不可恢复”到服务在备用区域重新上线所需的时间。

故障转移流程图 (Failover Workflow)

stateDiagram-v2
    direction TB

    state "正常运行 (Normal)" as Normal
    state "故障检测 (Detect)" as Detect
    state "Karmada 重新调度" as Reschedule
    state "DNS 切换 (Switch)" as DNS
    state "服务恢复 (Recovered)" as Recovered

    Normal --> Detect : 心跳丢失 > 30s
    Detect --> Reschedule : 标记集群不健康
    Reschedule --> DNS : 更新 GeoDNS 记录
    DNS --> Recovered : 流量路由至备用区

演练场景：纽约数据中心完全断电

假设 Destroyer (NY) 集群因不可抗力完全离线：

自动检测: 东京控制面 (Carrier) 在 30 秒内检测到纽约节点状态为 Unknown。
存活探针: 系统自动触发对纽约边缘网关的外部 Ping 测试，确认并非单纯的控制面网络抖动。
疏散指令: 运维团队（或自动化 Operator）执行 karmadactl cordon cluster destroyer-ny。
工作负载迁移: Karmada 自动将 Deployment 的副本数在 Aegis (DE) 或其他备用集群中扩容。
存储挂载: 备用集群通过 WireGuard 连接到异地的数据副本（如果主存储也同时离线，则连接到异步镜像的从属存储）。