AI 与高性能计算 (AI & High-Performance Computing)

人工智能工作负载对基础设施有着独特的需求：大规模并行处理能力、高带宽内存和持续的吞吐量。云巨头将这些资源视为奢侈品，按秒计费，并让用户遭受抢占式中断的风险。

Cyberun Cloud 将算力视为一种公用事业。我们的 Aegis 集群 是一个专用环境，专为 AI 训练和推理的繁重任务而设计。

Aegis 架构

graph TD
    %% 样式定义
    classDef gpu fill:#ffebee,stroke:#c62828,stroke-width:2px,color:#000;
    classDef storage fill:#fff8e1,stroke:#fbc02d,stroke-width:2px,color:#000;
    classDef network fill:#e0f2f1,stroke:#00695c,stroke-width:2px,color:#000;

    subgraph ComputeNode ["Aegis 计算节点 (Nuremberg)"]
        direction TB
        Pod["AI 训练容器 (PyTorch)"]:::gpu
        Driver["NVIDIA GPU Driver"]:::gpu
        NIC["100GbE 网卡"]:::network

        Pod == PCIe直通 ==> Driver
        Pod -- CSI挂载 --> NIC
    end

    subgraph StorageCluster ["Auxiliary 存储集群 (New York)"]
        direction TB
        Ceph["Ceph OSD 集群"]:::storage
    end

    %% 跨大洋高速链路
    NIC == "WireGuard 专线" ==> Ceph

    %% 注释节点
    Note["数据预取: 模型权重直接流入显存"]
    Note -.-> Pod

Aegis 集群位于 纽伦堡，与我们的通用计算节点在物理上是隔离的。

硬件隔离: AI 工作负载噪音很大。通过将其隔离在专用的裸金属 GPU 节点上，我们确保 CPU 密集型微服务（在 Destroyer 中）不会与 GPU 密集型训练任务争夺资源。
直接硬件访问: 我们利用 NVIDIA Container Toolkit 将 GPU 能力直接传递给 Kubernetes Pod，绕过虚拟化开销。

固定成本算力槽位

我们颠覆了 AI 的传统定价模型。

问题: 公有云按“GPU 小时”收费。这不仅抑制了实验，还让工程师因担心成本超支而不敢让训练任务彻夜运行。
Cyberun 解决方案: 月度槽位 (Monthly Slots)。
您以固定的月费预留一个 GPU 切片（例如 1/2 GPU 或全卡）。
无限使用: 7x24 小时运行您的模型。微调 LLM、生成图像或运行批处理推理流水线。成本永远不变。

工作负载调度

我们利用 Kubernetes 的 污点 (Taints) 和容忍度 (Tolerations) 来确保精确的工作负载放置。

# 示例: 在 Aegis 上调度 PyTorch 任务
spec:
  tolerations:
    - key: "sku"
      operator: "Equal"
      value: "gpu-h100"
      effect: "NoSchedule"
  nodeSelector:
    accelerator: nvidia-gpu

优先级类别: 我们支持组织内部的“抢占 (Preemption)”。如果需求激增，您的关键推理 API 可以自动抢占后台训练任务的资源。

主权 AI (Sovereign AI)

在数据隐私备受关注的时代，主权 AI 至关重要。

私有训练: 您的训练数据永远不会离开您的私有 VPC 网格。它从您的私有 Ceph 存储桶中提取，在 Aegis 上处理，模型权重保存回 Ceph。
无泄漏: 与使用公共 AI API（您的数据可能被用于训练他们的模型）不同，在 Cyberun 上运行您自己的开源模型（Llama 3, Mistral, Stable Diffusion）可保证您的知识产权归您所有。