跳转至

全球集群联邦 (Global Cluster Federation)

Cyberun Cloud 重新定义了多云编排的标准。我们不采用简单的“多集群管理”,而是构建了一个具有 单一管理视图 (Single Pane of Glass)超融合联邦架构。通过 Karmada 引擎,我们将物理上分散的异构资源抽象为逻辑上统一的算力池。

架构拓扑:功能平面隔离 (Functional Plane Isolation)

graph TD
    %% 定义高对比度样式:浅底深字
    classDef control fill:#e3f2fd,stroke:#1565c0,stroke-width:2px,color:#000;
    classDef compute fill:#ffebee,stroke:#c62828,stroke-width:2px,color:#000;
    classDef storage fill:#fff8e1,stroke:#fbc02d,stroke-width:2px,color:#000;

    subgraph Tokyo [大脑:控制平面 - Tokyo]
        direction TB
        K[Karmada API]:::control
        R[Rancher]:::control
        IAM[Keycloak]:::control
    end

    subgraph Compute [肌肉:计算平面 - US/EU]
        direction TB
        D[Destroyer - NY]:::compute
        A[Aegis GPU - DE]:::compute
    end

    subgraph Storage [金库:存储平面 - NY]
        direction TB
        AUX[Auxiliary Ceph]:::storage
    end

    %% 连线关系
    K -->|指令传播| D
    K -->|指令传播| A
    D -->|低延迟挂载| AUX
    A -->|模型数据读取| AUX

为了消除“单一故障域”风险,我们实施了严格的物理与逻辑隔离策略,确保管理流量与业务流量互不干扰。

1. 联邦控制平面 (The Carrier Cluster)

  • 定位: 系统的“大脑”,托管于东京 (Tokyo) 的高可用区。
  • 架构规范:
  • 高可用性 (HA): 核心组件(API Server, Scheduler, Controller Manager)均采用 3 副本 (3-Replica) 部署模式,确保单点故障零停机。
  • 数据一致性: 内部集成 etcd 集群,基于 Longhorn 持久化存储,提供强一致性的元数据管理。
  • 职责边界: 仅处理调度指令与元数据分发,严禁 运行任何用户态业务容器,从而保证控制面在任何负载下的绝对响应速度。

2. 业务计算平面 (The Destroyer & Aegis Clusters)

  • 定位: 系统的“肌肉”,分布于纽约 (New York) 与纽伦堡 (Nuremberg)。
  • 架构规范:
  • 无状态设计: 计算节点设计为“可丢弃 (Disposable)”资源。通过 Descheduler 组件,系统持续优化负载分布,避免热点效应。
  • 硬件亲和性调度:
    • Destroyer (通用计算): 针对高并发微服务优化的 CPU 密集型集群。
    • Aegis (高性能计算): 搭载专用加速器的 GPU 集群,通过 Taints & Tolerations 机制确保 AI 任务的独占式运行。

3. 持久化存储平面 (The Auxiliary Cluster)

  • 定位: 系统的“金库”,与计算平面通过低延迟链路互联。
  • 架构规范:
  • 故障隔离: 存储集群独立于计算集群运行。即使计算节点发生内核恐慌 (Kernel Panic) 或资源耗尽,存储层的 OSD (Object Storage Daemons) 仍保持稳定,确保数据零损坏。

联邦调度策略 (Federation Scheduling Policy)

Cyberun 利用 GitOps 定义的 传播策略 (PropagationPolicy) 实现智能调度,而非简单的人工干预。

  • 故障转移 (Failover): 当某个成员集群心跳丢失超过阈值(默认 5 分钟),联邦控制面自动将无状态工作负载驱逐并重新调度至健康集群。
  • 跨域冗余 (Cross-Region Redundancy): 关键业务默认配置为 SpreadConstraint,强制副本分散在不同的大洲,以抵御区域性断网风险。