DCE 产品路线图¶

声明

本路线图反映当前规划方向，具体功能和时间节点可能调整。以版本发布说明为准。

	H1 2026	H2 2026	2027+
AI	推理运行时集成（vLLM / SGLang），适配国产 GPU 模型资产中心 MVP（用户/项目/仓库管理、模型与数据集上下载、CLI）国产模型仓库预集成（Qwen / GLM / Baichuan）推理加速：多级 KV Cache、拓扑感知调度（Kueue / Gang）训推混部基础支持 AI 故障诊断（多源日志关联 + 根因分析）预测性告警（时序异常检测、资源耗尽预警）	DCE AI Runtime GA 统一推理 API（兼容 OpenAI API / Llama Stack）微调 / LoRA 支持多模态推理（图文、音视频）模型资产中心完善（远程复制/同步、安全扫描、预热加速、多语言） MatrixHub 提交 CNCF¹ AI Agent 基础设施 Beta（沙箱、记忆与上下文、语义路由）故障自愈（集成训练/推理框架自动恢复）告警降噪（相关告警自动归并）大模型安全（模型访问控制、推理内容安全策略）	分布式推理训推混部优化 AI 全栈自动化（AutoML + Agent）
算力	沐曦 GPU 适配启动（网络拓扑、Lustre GDS）昇腾 910C NPU 调度（CANN 驱动）海光 DCU GPU 调度 AI 高性能存储（Lustre 文件系统） Kueue / Gang Scheduling / LWS / DRA 集成 HAMi 商业版集成² containerd 增强（容器磁盘限制）	国产 GPU 全面 GA（沐曦 / 昇腾 / 海光 / 壁仞）沐曦超节点发布超节点方案（8/16 卡高密度，GPU 共享调度） GPU Operator 混合调度（CPU + GPU + NPU），利用率 → 80%+ 分布式存储方案（云场景）	DPU / NPU 统一调度算力网络，多集群算力联邦 InfiniBand 拓扑识别（通过 UFM）
平台	一键安装（Web UI + CLI，自动环境检测） Preflight 预检框架（插件化，检测网络/存储/权限） Gateway API 迁移启动（Ingress 退休）日志聚合能力增强算力云运营平台管理后台算力基线梳理与计费模式优化 Ghippo 管理后台界面化 CSP 用户双因子认证（2FA）	滚动升级（零停机，金丝雀 + 回滚） Gateway API 迁移完成部署时间 → 15 分钟（从 ~2 小时）算力云运营平台完善（租户隔离、库存管理、计费互转、GPU 升降级）裸金属部署工具（集群装机、自动化测试、单机排障）	轻量化内核，边缘原生自适应平台（自动调优 + 自愈）
生态	Kueue / LWS / Gang Scheduling 等 K8s AI/ML SIG 贡献 Spiderpool DRA 实现、DRANet Spiderpool 支持沐曦 GPU GAIE / NIXL / LMCache 等推理优化项目参与	MatrixHub Sandbox unifabric 1.0（网络健康检查、容灾标记、KV Cache 同步监控） metal-deployer 工程交付 GAIE / NIXL 社区席位	unifabric Sandbox、InfiniBand 支持低代码编排，自然语言运维

[1] MatrixHub — DaoCloud 开源的模型资产中心，对标 Harbor 之于容器镜像的定位。
[2] HAMi — 异构 AI 算力虚拟化中间件，支持 GPU 共享与隔离。

战略方向¶

DCE 已具备 AI Lab（训练）和大模型服务平台（模型管理与推理）。2026 年在此基础上集中做两件事：

AI 深化 — 补全企业推理场景，适配国产 GPU，打通训练到推理
平台深化 — 运维体验、部署效率、算力管理，把已有能力做扎实

DCE 5.0 现有能力¶

各模块可独立升级，不需要整体停机。

模块	能力	文档
容器管理	多集群管理、集群生命周期、弹性伸缩、Helm 应用
应用工作台	CI/CD 流水线、GitOps、灰度发布
多云编排	跨云资源调度与应用编排
微服务引擎	Spring Cloud / Dubbo 管理
服务网格	基于 Istio 的流量治理与可观测
云原生网络	多 CNI、网络策略、负载均衡
云原生存储	CSI 标准、HwameiStor、多存储后端
可观测性	指标/日志/链路追踪、多维告警
中间件	Redis / MySQL / Kafka / ES / PG 生命周期管理
镜像仓库	多实例管理，兼容 Harbor
全局管理	身份认证、多租户、权限、审计
虚拟机	KubeVirt，VM 管理、快照、热迁移
AI Lab	训练推理、PyTorch / TensorFlow
大模型服务	大模型部署运维，vLLM / SGLang
云边协同	边缘集群与节点管理

运营保障¶

类别	内容
高可用	管理面多副本 + etcd 集群，单节点故障自动恢复
数据备份	etcd 快照、应用备份（Velero）、跨集群灾备
离线运行	完全离线部署和运行，不依赖外部网络
升级回滚	所有版本升级支持一键回滚
安全合规	等保三级、审计日志、镜像扫描、模型访问控制
身份认证	LDAP / OIDC / 企业统一身份平台
技术支持	文档站 + 培训认证 + TAM + 7×24 应急响应

生态与合作¶

开源贡献： Kubernetes 核心仓库贡献中国第一、全球前三。参与 Istio / Cilium / Spiderpool / HwameiStor 等 CNCF 项目。Kueue / LWS / Gang Scheduling 等 K8s AI/ML SIG 活跃贡献者。

领域	合作伙伴
芯片与算力	华为昇腾、海光、壁仞、沐曦、NVIDIA
操作系统	麒麟、统信 UOS
数据库与中间件	达梦、OceanBase、TiDB

行业落地： 金融 · 制造 · 能源 · 电信 · 政务，累计服务 500+ 企业客户。

	H1 2026	H2 2026	2027+
AI	推理运行时集成（vLLM / SGLang），适配国产 GPU 模型资产中心 MVP（用户/项目/仓库管理、模型与数据集上下载、CLI）国产模型仓库预集成（Qwen / GLM / Baichuan）推理加速：多级 KV Cache、拓扑感知调度（Kueue / Gang）训推混部基础支持 AI 故障诊断（多源日志关联 + 根因分析）预测性告警（时序异常检测、资源耗尽预警）	DCE AI Runtime GA 统一推理 API（兼容 OpenAI API / Llama Stack）微调 / LoRA 支持多模态推理（图文、音视频）模型资产中心完善（远程复制/同步、安全扫描、预热加速、多语言） MatrixHub 提交 CNCF¹ AI Agent 基础设施 Beta（沙箱、记忆与上下文、语义路由）故障自愈（集成训练/推理框架自动恢复）告警降噪（相关告警自动归并）大模型安全（模型访问控制、推理内容安全策略）	分布式推理训推混部优化 AI 全栈自动化（AutoML + Agent）
算力	沐曦 GPU 适配启动（网络拓扑、Lustre GDS）昇腾 910C NPU 调度（CANN 驱动）海光 DCU GPU 调度 AI 高性能存储（Lustre 文件系统） Kueue / Gang Scheduling / LWS / DRA 集成 HAMi 商业版集成² containerd 增强（容器磁盘限制）	国产 GPU 全面 GA（沐曦 / 昇腾 / 海光 / 壁仞）沐曦超节点发布超节点方案（8/16 卡高密度，GPU 共享调度） GPU Operator 混合调度（CPU + GPU + NPU），利用率 → 80%+ 分布式存储方案（云场景）	DPU / NPU 统一调度算力网络，多集群算力联邦 InfiniBand 拓扑识别（通过 UFM）
平台	一键安装（Web UI + CLI，自动环境检测） Preflight 预检框架（插件化，检测网络/存储/权限） Gateway API 迁移启动（Ingress 退休）日志聚合能力增强算力云运营平台管理后台算力基线梳理与计费模式优化 Ghippo 管理后台界面化 CSP 用户双因子认证（2FA）	滚动升级（零停机，金丝雀 + 回滚） Gateway API 迁移完成部署时间 → 15 分钟（从 ~2 小时）算力云运营平台完善（租户隔离、库存管理、计费互转、GPU 升降级）裸金属部署工具（集群装机、自动化测试、单机排障）	轻量化内核，边缘原生自适应平台（自动调优 + 自愈）
生态	Kueue / LWS / Gang Scheduling 等 K8s AI/ML SIG 贡献 Spiderpool DRA 实现、DRANet Spiderpool 支持沐曦 GPU GAIE / NIXL / LMCache 等推理优化项目参与	MatrixHub Sandbox unifabric 1.0（网络健康检查、容灾标记、KV Cache 同步监控） metal-deployer 工程交付 GAIE / NIXL 社区席位	unifabric Sandbox、InfiniBand 支持低代码编排，自然语言运维