文档
注册

特性介绍

安装部署场景中支持的特性说明如下。

NPU设备管理

基于Kubernetes设备插件机制,支持NPU设备的发现和状态监测。

NPU优化调度

根据NPU设备物理拓扑,选择合适的NPU设备,最大化发挥NPU性能。

断点续训

在NPU故障和服务器故障时,自动重新调度训练任务到NPU健康的设备和节点上,继续执行训练任务。

推理卡故障重调度

NPU故障时,自动重新调度推理任务到健康的设备上,继续执行推理任务。

最小业务系统

在NPU故障和服务器故障时,自动重调度任务,使用仍然健康的设备,继续执行训练任务。

搜索结果
找到“0”个结果

当前产品无相关内容

未找到相关内容,请尝试其他搜索词