全球集群联邦 (Global Cluster Federation)
Cyberun Cloud 重新定义了多云编排的标准。我们不采用简单的“多集群管理”,而是构建了一个具有 单一管理视图 (Single Pane of Glass) 的 超融合联邦架构。通过 Karmada 引擎,我们将物理上分散的异构资源抽象为逻辑上统一的算力池。
架构拓扑:功能平面隔离 (Functional Plane Isolation)
graph TD
%% 定义高对比度样式:浅底深字
classDef control fill:#e3f2fd,stroke:#1565c0,stroke-width:2px,color:#000;
classDef compute fill:#ffebee,stroke:#c62828,stroke-width:2px,color:#000;
classDef storage fill:#fff8e1,stroke:#fbc02d,stroke-width:2px,color:#000;
subgraph Tokyo [大脑:控制平面 - Tokyo]
direction TB
K[Karmada API]:::control
R[Rancher]:::control
IAM[Keycloak]:::control
end
subgraph Compute [肌肉:计算平面 - US/EU]
direction TB
D[Destroyer - NY]:::compute
A[Aegis GPU - DE]:::compute
end
subgraph Storage [金库:存储平面 - NY]
direction TB
AUX[Auxiliary Ceph]:::storage
end
%% 连线关系
K -->|指令传播| D
K -->|指令传播| A
D -->|低延迟挂载| AUX
A -->|模型数据读取| AUX
为了消除“单一故障域”风险,我们实施了严格的物理与逻辑隔离策略,确保管理流量与业务流量互不干扰。
1. 联邦控制平面 (The Carrier Cluster)
- 定位: 系统的“大脑”,托管于东京 (Tokyo) 的高可用区。
- 架构规范:
- 高可用性 (HA): 核心组件(API Server, Scheduler, Controller Manager)均采用 3 副本 (3-Replica) 部署模式,确保单点故障零停机。
- 数据一致性: 内部集成 etcd 集群,基于 Longhorn 持久化存储,提供强一致性的元数据管理。
- 职责边界: 仅处理调度指令与元数据分发,严禁 运行任何用户态业务容器,从而保证控制面在任何负载下的绝对响应速度。
2. 业务计算平面 (The Destroyer & Aegis Clusters)
- 定位: 系统的“肌肉”,分布于纽约 (New York) 与纽伦堡 (Nuremberg)。
- 架构规范:
- 无状态设计: 计算节点设计为“可丢弃 (Disposable)”资源。通过 Descheduler 组件,系统持续优化负载分布,避免热点效应。
- 硬件亲和性调度:
- Destroyer (通用计算): 针对高并发微服务优化的 CPU 密集型集群。
- Aegis (高性能计算): 搭载专用加速器的 GPU 集群,通过 Taints & Tolerations 机制确保 AI 任务的独占式运行。
3. 持久化存储平面 (The Auxiliary Cluster)
- 定位: 系统的“金库”,与计算平面通过低延迟链路互联。
- 架构规范:
- 故障隔离: 存储集群独立于计算集群运行。即使计算节点发生内核恐慌 (Kernel Panic) 或资源耗尽,存储层的 OSD (Object Storage Daemons) 仍保持稳定,确保数据零损坏。
联邦调度策略 (Federation Scheduling Policy)
Cyberun 利用 GitOps 定义的 传播策略 (PropagationPolicy) 实现智能调度,而非简单的人工干预。
- 故障转移 (Failover): 当某个成员集群心跳丢失超过阈值(默认 5 分钟),联邦控制面自动将无状态工作负载驱逐并重新调度至健康集群。
- 跨域冗余 (Cross-Region Redundancy): 关键业务默认配置为
SpreadConstraint,强制副本分散在不同的大洲,以抵御区域性断网风险。