跳转至

全栈可观测性 (Full-Stack Observability)

在分布式云环境中,“它在运行吗?”只是最基本的问题。企业级运营需要回答的是“它运行得怎么样?”以及“如果延迟激增,瓶颈在哪里?”。

Cyberun Cloud 摒弃了存在 AGPL 许可风险的组件,构建了基于 OpenSearch“玻璃盒 (Glass-Box)” 可观测性堆栈,确保您的监控数据享有完全的主权与合规性。

统一遥测架构 (Unified Telemetry Architecture)

1. 指标 (Metrics):基础设施心跳

  • 数据源: 集成 OpenSearch 监控生态。
  • 数据汇聚: 指标数据通过 Remote Write 写入 OpenSearch,实现长周期存储。
  • 可视化: 使用 OpenSearch Dashboards 提供开箱即用的“黄金信号”仪表板(延迟、流量、错误、饱和度)。

2. 日志 (Logs):集中化审计

  • 采集层: 我们的日志流水线(Fluent Bit)自动采集所有容器的 stdout/stderr
  • 存储层: 数据汇聚到 OpenSearch 集群。OpenSearch 提供了更强大的全文检索与聚合分析能力。
  • 能力: 支持复杂的结构化查询 (PPL/DSL) 和基于日志模式的异常检测。

3. 追踪 (Traces):全链路分析

  • 集成: 支持 OpenTelemetry (OTEL) 标准。
  • 价值: 利用 OpenSearch Trace Analytics,您可以追踪一个 HTTP 请求从东京负载均衡器到纽约数据库的全过程,精确到毫秒级定位延迟热点。

多租户隔离

在 Cyberun 的多租户环境中,您的监控数据是严格私有的。

  • 索引隔离: 每个租户拥有独立的 OpenSearch 索引模式(Index Pattern)。
  • 基于角色的访问 (RBAC): 利用 OpenSearch 的细粒度安全插件,确保您只能查询属于您命名空间的日志。

智能告警 (AIOps)

  • 预置规则: 我们内置了数百条基于 SRE 最佳实践的告警规则(例如:KubeNodeNotReady, HighErrorRate)。
  • 多渠道通知: 告警通过 Alertmanager 发送到 Slack, Email 或 Webhook。