运行维护
前提条件
此功能只适用于特定场景下:用户需要使用重调度功能,且Ascend Device Plugin的启动yaml中已设置autoStowing参数为false。
操作方法
- 用户可以使用以下命令,将健康状态由unhealthy恢复为healthy的芯片重新放入资源池。
kubectl label nodes node_name huawei.com/Ascend910-Recover-
执行该命令后会删除“huawei.com/Ascend910-Recover”标签,该标签中的芯片会重新放入资源池中供程序调度。
该命令仅做清除Recover标签信息使用,请不要用于添加标签。
- 用户可以使用以下命令,将参数面网络健康状态由unhealthy恢复为healthy的芯片重新放入资源池。
kubectl label nodes node_name huawei.com/Ascend910-NetworkRecover-
执行该命令后会删除“huawei.com/Ascend910-NetworkRecover”标签,同时也会清除“huawei.com/Ascend910-NetworkUnhealthy”中对应的芯片。
该命令仅做清除NetworkRecover标签信息使用,请不要用于添加标签。
父主题: 断点续训使用示例