跳转至

AI 与高性能计算 (AI & High-Performance Computing)

人工智能工作负载对基础设施有着独特的需求:大规模并行处理能力、高带宽内存和持续的吞吐量。云巨头将这些资源视为奢侈品,按秒计费,并让用户遭受抢占式中断的风险。

Cyberun Cloud 将算力视为一种公用事业。我们的 Aegis 集群 是一个专用环境,专为 AI 训练和推理的繁重任务而设计。

Aegis 架构

graph TD
    %% 样式定义
    classDef gpu fill:#ffebee,stroke:#c62828,stroke-width:2px,color:#000;
    classDef storage fill:#fff8e1,stroke:#fbc02d,stroke-width:2px,color:#000;
    classDef network fill:#e0f2f1,stroke:#00695c,stroke-width:2px,color:#000;

    subgraph ComputeNode ["Aegis 计算节点 (Nuremberg)"]
        direction TB
        Pod["AI 训练容器 (PyTorch)"]:::gpu
        Driver["NVIDIA GPU Driver"]:::gpu
        NIC["100GbE 网卡"]:::network

        Pod == PCIe直通 ==> Driver
        Pod -- CSI挂载 --> NIC
    end

    subgraph StorageCluster ["Auxiliary 存储集群 (New York)"]
        direction TB
        Ceph["Ceph OSD 集群"]:::storage
    end

    %% 跨大洋高速链路
    NIC == "WireGuard 专线" ==> Ceph

    %% 注释节点
    Note["数据预取: 模型权重直接流入显存"]
    Note -.-> Pod

Aegis 集群位于 纽伦堡,与我们的通用计算节点在物理上是隔离的。

  • 硬件隔离: AI 工作负载噪音很大。通过将其隔离在专用的裸金属 GPU 节点上,我们确保 CPU 密集型微服务(在 Destroyer 中)不会与 GPU 密集型训练任务争夺资源。
  • 直接硬件访问: 我们利用 NVIDIA Container Toolkit 将 GPU 能力直接传递给 Kubernetes Pod,绕过虚拟化开销。

固定成本算力槽位

我们颠覆了 AI 的传统定价模型。

  • 问题: 公有云按“GPU 小时”收费。这不仅抑制了实验,还让工程师因担心成本超支而不敢让训练任务彻夜运行。
  • Cyberun 解决方案: 月度槽位 (Monthly Slots)
  • 您以固定的月费预留一个 GPU 切片(例如 1/2 GPU 或全卡)。
  • 无限使用: 7x24 小时运行您的模型。微调 LLM、生成图像或运行批处理推理流水线。成本永远不变。

工作负载调度

我们利用 Kubernetes 的 污点 (Taints) 和 容忍度 (Tolerations) 来确保精确的工作负载放置。

# 示例: 在 Aegis 上调度 PyTorch 任务
spec:
  tolerations:
    - key: "sku"
      operator: "Equal"
      value: "gpu-h100"
      effect: "NoSchedule"
  nodeSelector:
    accelerator: nvidia-gpu
  • 优先级类别: 我们支持组织内部的“抢占 (Preemption)”。如果需求激增,您的关键推理 API 可以自动抢占后台训练任务的资源。

主权 AI (Sovereign AI)

在数据隐私备受关注的时代,主权 AI 至关重要。

  • 私有训练: 您的训练数据永远不会离开您的私有 VPC 网格。它从您的私有 Ceph 存储桶中提取,在 Aegis 上处理,模型权重保存回 Ceph。
  • 无泄漏: 与使用公共 AI API(您的数据可能被用于训练他们的模型)不同,在 Cyberun 上运行您自己的开源模型(Llama 3, Mistral, Stable Diffusion)可保证您的知识产权归您所有。