灾难恢复演练手册 (Disaster Recovery Runbook)
在 Cyberun Cloud,我们不寄希望于运气的眷顾。我们为最坏的情况做好准备。本文档概述了针对 区域级故障 (Region Failure) 的标准恢复程序。
恢复目标 (Recovery Objectives)
基于我们的异步地理镜像架构,我们承诺以下指标:
- RPO (恢复点目标): < 10 秒。在灾难发生时,最多可能丢失最后 10 秒内写入的数据。
- RTO (恢复时间目标): < 5 分钟。从故障确认为“不可恢复”到服务在备用区域重新上线所需的时间。
故障转移流程图 (Failover Workflow)
stateDiagram-v2
direction TB
state "正常运行 (Normal)" as Normal
state "故障检测 (Detect)" as Detect
state "Karmada 重新调度" as Reschedule
state "DNS 切换 (Switch)" as DNS
state "服务恢复 (Recovered)" as Recovered
Normal --> Detect : 心跳丢失 > 30s
Detect --> Reschedule : 标记集群不健康
Reschedule --> DNS : 更新 GeoDNS 记录
DNS --> Recovered : 流量路由至备用区
演练场景:纽约数据中心完全断电
假设 Destroyer (NY) 集群因不可抗力完全离线:
- 自动检测: 东京控制面 (
Carrier) 在 30 秒内检测到纽约节点状态为Unknown。 - 存活探针: 系统自动触发对纽约边缘网关的外部 Ping 测试,确认并非单纯的控制面网络抖动。
- 疏散指令: 运维团队(或自动化 Operator)执行
karmadactl cordon cluster destroyer-ny。 - 工作负载迁移: Karmada 自动将 Deployment 的副本数在
Aegis (DE)或其他备用集群中扩容。 - 存储挂载: 备用集群通过 WireGuard 连接到异地的数据副本(如果主存储也同时离线,则连接到异步镜像的从属存储)。