多张Atlas 中心推理卡直通虚拟机场景下,虚拟机中所有命令执行缓慢

问题描述

多张Atlas 中心推理卡直通虚拟机场景下,虚拟机中出现所有命令执行缓慢、驱动npu-smi命令或dcmi接口响应缓慢、卡顿。

可能原因

创建虚拟机时分配的内存空间或CPU核数不足。

解决方案

  1. 执行如下命令,关闭虚拟机。

    virsh shutdown 虚拟机名称

  2. 登录物理机。
  3. 执行如下命令,查询需要修改的虚拟机名称。

    virsh list --all

  4. 执行如下命令,查询当前环境剩余内存大小。

    free -h

                 total        used        free      shared    buff/cache   available
    Mem:         251Gi        1.5Gi       249Gi      19Mi       774Mi      248Gi
    Swap:        108Gi          0B        108Gi

  5. 执行如下命令,修改虚拟机配置文件。

    virsh edit 虚拟机名称

    根据实际业务情况进行定制化修改内存配置大小和CPU核数,如下加粗字体标注的内容。
    <memory unit='GiB'>64</memory>
    <currentMemory unit='GiB'>64</currentMemory>
    <vcpu placement='static'>8</vcpu>

    直通多张Atlas 中心推理卡创建虚拟机时,用户可根据实际业务需求给虚拟机分配足够的CPU核数和内存。

  6. 执行如下命令,保存配置文件。

    wq!

  7. 执行如下命令,启动虚拟机使配置生效。

    virsh start 虚拟机名称