DCE 产品路线图
声明
本路线图反映当前规划方向,具体功能和时间节点可能调整。以版本发布说明为准。
|
H1 2026 |
H2 2026 |
2027+ |
| AI |
- 推理运行时集成(vLLM / SGLang),适配国产 GPU
- 模型资产中心 MVP(用户/项目/仓库管理、模型与数据集上下载、CLI)
- 国产模型仓库预集成(Qwen / GLM / Baichuan)
- 推理加速:多级 KV Cache、拓扑感知调度(Kueue / Gang)
- 训推混部基础支持
- AI 故障诊断(多源日志关联 + 根因分析)
- 预测性告警(时序异常检测、资源耗尽预警)
|
- DCE AI Runtime GA
- 统一推理 API(兼容 OpenAI API / Llama Stack)
- 微调 / LoRA 支持
- 多模态推理(图文、音视频)
- 模型资产中心完善(远程复制/同步、安全扫描、预热加速、多语言)
- MatrixHub 提交 CNCF1
- AI Agent 基础设施 Beta(沙箱、记忆与上下文、语义路由)
- 故障自愈(集成训练/推理框架自动恢复)
- 告警降噪(相关告警自动归并)
- 大模型安全(模型访问控制、推理内容安全策略)
|
- 分布式推理
- 训推混部优化
- AI 全栈自动化(AutoML + Agent)
|
| 算力 |
- 沐曦 GPU 适配启动(网络拓扑、Lustre GDS)
- 昇腾 910C NPU 调度(CANN 驱动)
- 海光 DCU GPU 调度
- AI 高性能存储(Lustre 文件系统)
- Kueue / Gang Scheduling / LWS / DRA 集成
- HAMi 商业版集成2
- containerd 增强(容器磁盘限制)
|
- 国产 GPU 全面 GA(沐曦 / 昇腾 / 海光 / 壁仞)
- 沐曦超节点发布
- 超节点方案(8/16 卡高密度,GPU 共享调度)
- GPU Operator 混合调度(CPU + GPU + NPU),利用率 → 80%+
- 分布式存储方案(云场景)
|
- DPU / NPU 统一调度
- 算力网络,多集群算力联邦
- InfiniBand 拓扑识别(通过 UFM)
|
| 平台 |
- 一键安装(Web UI + CLI,自动环境检测)
- Preflight 预检框架(插件化,检测网络/存储/权限)
- Gateway API 迁移启动(Ingress 退休)
- 日志聚合能力增强
- 算力云运营平台管理后台
- 算力基线梳理与计费模式优化
- Ghippo 管理后台界面化
- CSP 用户双因子认证(2FA)
|
- 滚动升级(零停机,金丝雀 + 回滚)
- Gateway API 迁移完成
- 部署时间 → 15 分钟(从 ~2 小时)
- 算力云运营平台完善(租户隔离、库存管理、计费互转、GPU 升降级)
- 裸金属部署工具(集群装机、自动化测试、单机排障)
|
- 轻量化内核,边缘原生
- 自适应平台(自动调优 + 自愈)
|
| 生态 |
- Kueue / LWS / Gang Scheduling 等 K8s AI/ML SIG 贡献
- Spiderpool DRA 实现、DRANet
- Spiderpool 支持沐曦 GPU
- GAIE / NIXL / LMCache 等推理优化项目参与
|
- MatrixHub Sandbox
- unifabric 1.0(网络健康检查、容灾标记、KV Cache 同步监控)
- metal-deployer 工程交付
- GAIE / NIXL 社区席位
|
- unifabric Sandbox、InfiniBand 支持
- 低代码编排,自然语言运维
|
[1] MatrixHub — DaoCloud 开源的模型资产中心,对标 Harbor 之于容器镜像的定位。
[2] HAMi — 异构 AI 算力虚拟化中间件,支持 GPU 共享与隔离。
战略方向
DCE 已具备 AI Lab(训练)和大模型服务平台(模型管理与推理)。2026 年在此基础上集中做两件事:
- AI 深化 — 补全企业推理场景,适配国产 GPU,打通训练到推理
- 平台深化 — 运维体验、部署效率、算力管理,把已有能力做扎实
DCE 5.0 现有能力
各模块可独立升级,不需要整体停机。
| 模块 |
能力 |
文档 |
| 容器管理 |
多集群管理、集群生命周期、弹性伸缩、Helm 应用 |
|
| 应用工作台 |
CI/CD 流水线、GitOps、灰度发布 |
|
| 多云编排 |
跨云资源调度与应用编排 |
|
| 微服务引擎 |
Spring Cloud / Dubbo 管理 |
|
| 服务网格 |
基于 Istio 的流量治理与可观测 |
|
| 云原生网络 |
多 CNI、网络策略、负载均衡 |
|
| 云原生存储 |
CSI 标准、HwameiStor、多存储后端 |
|
| 可观测性 |
指标/日志/链路追踪、多维告警 |
|
| 中间件 |
Redis / MySQL / Kafka / ES / PG 生命周期管理 |
|
| 镜像仓库 |
多实例管理,兼容 Harbor |
|
| 全局管理 |
身份认证、多租户、权限、审计 |
|
| 虚拟机 |
KubeVirt,VM 管理、快照、热迁移 |
|
| AI Lab |
训练推理、PyTorch / TensorFlow |
|
| 大模型服务 |
大模型部署运维,vLLM / SGLang |
|
| 云边协同 |
边缘集群与节点管理 |
|
运营保障
| 类别 |
内容 |
| 高可用 |
管理面多副本 + etcd 集群,单节点故障自动恢复 |
| 数据备份 |
etcd 快照、应用备份(Velero)、跨集群灾备 |
| 离线运行 |
完全离线部署和运行,不依赖外部网络 |
| 升级回滚 |
所有版本升级支持一键回滚 |
| 安全合规 |
等保三级、审计日志、镜像扫描、模型访问控制 |
| 身份认证 |
LDAP / OIDC / 企业统一身份平台 |
| 技术支持 |
文档站 + 培训认证 + TAM + 7×24 应急响应 |
生态与合作
开源贡献: Kubernetes 核心仓库贡献中国第一、全球前三。参与 Istio / Cilium / Spiderpool / HwameiStor 等 CNCF 项目。Kueue / LWS / Gang Scheduling 等 K8s AI/ML SIG 活跃贡献者。
| 领域 |
合作伙伴 |
| 芯片与算力 |
华为昇腾、海光、壁仞、沐曦、NVIDIA |
| 操作系统 |
麒麟、统信 UOS |
| 数据库与中间件 |
达梦、OceanBase、TiDB |
行业落地: 金融 · 制造 · 能源 · 电信 · 政务,累计服务 500+ 企业客户。