跳转至

DCE 产品路线图

声明

本路线图反映当前规划方向,具体功能和时间节点可能调整。以版本发布说明为准。

H1 2026 H2 2026 2027+
AI
  • 推理运行时集成(vLLM / SGLang),适配国产 GPU
  • 模型资产中心 MVP(用户/项目/仓库管理、模型与数据集上下载、CLI)
  • 国产模型仓库预集成(Qwen / GLM / Baichuan)
  • 推理加速:多级 KV Cache、拓扑感知调度(Kueue / Gang)
  • 训推混部基础支持
  • AI 故障诊断(多源日志关联 + 根因分析)
  • 预测性告警(时序异常检测、资源耗尽预警)
  • DCE AI Runtime GA
  • 统一推理 API(兼容 OpenAI API / Llama Stack)
  • 微调 / LoRA 支持
  • 多模态推理(图文、音视频)
  • 模型资产中心完善(远程复制/同步、安全扫描、预热加速、多语言)
  • MatrixHub 提交 CNCF1
  • AI Agent 基础设施 Beta(沙箱、记忆与上下文、语义路由)
  • 故障自愈(集成训练/推理框架自动恢复)
  • 告警降噪(相关告警自动归并)
  • 大模型安全(模型访问控制、推理内容安全策略)
  • 分布式推理
  • 训推混部优化
  • AI 全栈自动化(AutoML + Agent)
算力
  • 沐曦 GPU 适配启动(网络拓扑、Lustre GDS)
  • 昇腾 910C NPU 调度(CANN 驱动)
  • 海光 DCU GPU 调度
  • AI 高性能存储(Lustre 文件系统)
  • Kueue / Gang Scheduling / LWS / DRA 集成
  • HAMi 商业版集成2
  • containerd 增强(容器磁盘限制)
  • 国产 GPU 全面 GA(沐曦 / 昇腾 / 海光 / 壁仞)
  • 沐曦超节点发布
  • 超节点方案(8/16 卡高密度,GPU 共享调度)
  • GPU Operator 混合调度(CPU + GPU + NPU),利用率 → 80%+
  • 分布式存储方案(云场景)
  • DPU / NPU 统一调度
  • 算力网络,多集群算力联邦
  • InfiniBand 拓扑识别(通过 UFM)
平台
  • 一键安装(Web UI + CLI,自动环境检测)
  • Preflight 预检框架(插件化,检测网络/存储/权限)
  • Gateway API 迁移启动(Ingress 退休)
  • 日志聚合能力增强
  • 算力云运营平台管理后台
  • 算力基线梳理与计费模式优化
  • Ghippo 管理后台界面化
  • CSP 用户双因子认证(2FA)
  • 滚动升级(零停机,金丝雀 + 回滚)
  • Gateway API 迁移完成
  • 部署时间 → 15 分钟(从 ~2 小时)
  • 算力云运营平台完善(租户隔离、库存管理、计费互转、GPU 升降级)
  • 裸金属部署工具(集群装机、自动化测试、单机排障)
  • 轻量化内核,边缘原生
  • 自适应平台(自动调优 + 自愈)
生态
  • Kueue / LWS / Gang Scheduling 等 K8s AI/ML SIG 贡献
  • Spiderpool DRA 实现、DRANet
  • Spiderpool 支持沐曦 GPU
  • GAIE / NIXL / LMCache 等推理优化项目参与
  • MatrixHub Sandbox
  • unifabric 1.0(网络健康检查、容灾标记、KV Cache 同步监控)
  • metal-deployer 工程交付
  • GAIE / NIXL 社区席位
  • unifabric Sandbox、InfiniBand 支持
  • 低代码编排,自然语言运维

[1] MatrixHub — DaoCloud 开源的模型资产中心,对标 Harbor 之于容器镜像的定位。
[2] HAMi — 异构 AI 算力虚拟化中间件,支持 GPU 共享与隔离。


战略方向

DCE 已具备 AI Lab(训练)和大模型服务平台(模型管理与推理)。2026 年在此基础上集中做两件事:

  1. AI 深化 — 补全企业推理场景,适配国产 GPU,打通训练到推理
  2. 平台深化 — 运维体验、部署效率、算力管理,把已有能力做扎实

DCE 5.0 现有能力

各模块可独立升级,不需要整体停机。

模块 能力 文档
容器管理 多集群管理、集群生命周期、弹性伸缩、Helm 应用
应用工作台 CI/CD 流水线、GitOps、灰度发布
多云编排 跨云资源调度与应用编排
微服务引擎 Spring Cloud / Dubbo 管理
服务网格 基于 Istio 的流量治理与可观测
云原生网络 多 CNI、网络策略、负载均衡
云原生存储 CSI 标准、HwameiStor、多存储后端
可观测性 指标/日志/链路追踪、多维告警
中间件 Redis / MySQL / Kafka / ES / PG 生命周期管理
镜像仓库 多实例管理,兼容 Harbor
全局管理 身份认证、多租户、权限、审计
虚拟机 KubeVirt,VM 管理、快照、热迁移
AI Lab 训练推理、PyTorch / TensorFlow
大模型服务 大模型部署运维,vLLM / SGLang
云边协同 边缘集群与节点管理

运营保障

类别 内容
高可用 管理面多副本 + etcd 集群,单节点故障自动恢复
数据备份 etcd 快照、应用备份(Velero)、跨集群灾备
离线运行 完全离线部署和运行,不依赖外部网络
升级回滚 所有版本升级支持一键回滚
安全合规 等保三级、审计日志、镜像扫描、模型访问控制
身份认证 LDAP / OIDC / 企业统一身份平台
技术支持 文档站 + 培训认证 + TAM + 7×24 应急响应

生态与合作

开源贡献: Kubernetes 核心仓库贡献中国第一、全球前三。参与 Istio / Cilium / Spiderpool / HwameiStor 等 CNCF 项目。Kueue / LWS / Gang Scheduling 等 K8s AI/ML SIG 活跃贡献者。

领域 合作伙伴
芯片与算力 华为昇腾、海光、壁仞、沐曦、NVIDIA
操作系统 麒麟、统信 UOS
数据库与中间件 达梦、OceanBase、TiDB

行业落地: 金融 · 制造 · 能源 · 电信 · 政务,累计服务 500+ 企业客户。

评论