文档
注册

设备实时状态查询

测试项功能

设备实时状态查询是检测设备在运行过程中的状态信息。

测试项参数查询

用户可任选以下指令之一查看设备实时状态查询命令的可用参数。

ascend-dmi -i -h

ascend-dmi -i --help

各参数解释如表1所示。

表1 参数说明

参数

说明

是否必填

[-i, --info]

使用该参数进行设备实时状态查询。

[-b, --brief]

使用该参数查看芯片的基本信息。

[-dt, --dt, --detail]

使用该参数查看芯片的详细信息。

不填写--dt与-b参数

默认查看芯片的基本信息。

[-fmt, --fmt, --format]

指定输出格式,可以为normal或json。若未指定则默认为normal。

使用实例

  • 以查看芯片的详细信息为例。

    ascend-dmi -i --dt

    以下为各类服务器返回的查询芯片的详细信息示例,如返回对应信息表示工具运行正常。

    1. 推理服务器(此处以Ascend 310芯片为例,Ascend 310P芯片和Atlas 500 A2 智能小站类似)
      图1 设备实时状态查询示例(推理服务器)
    2. 训练服务器
      图2 设备实时状态查询示例(训练服务器)
    3. Atlas 300T 训练卡(型号 9000)
      图3 设备实时状态查询示例(Atlas 300T 训练卡(型号 9000)
    4. Atlas 200 AI加速模块
      图4 设备实时状态查询示例(Atlas 200 AI加速模块 RC场景,Atlas 200I A2 加速模块Atlas 200I DK A2 开发者套件类似)
      图5 设备实时状态查询示例(Atlas 200 AI加速模块 EP场景)

    以上图中各类服务器参数介绍如表2所示。

    表2 显示界面参数说明

    参数

    说明

    产品形态

    Type

    芯片型号

    训练服务器

    NPU Count

    NPU数量

    Card Quantity

    卡数量

    标卡

    Type

    标卡型号

    Card Manufacturer

    卡生产商

    Card Serial Number

    卡序列号

    Card ID

    卡ID号

    Real-time Card Power (W)

    卡实时功耗

    Device Count

    设备数(NPU个数)

    Chip Name

    芯片名称

    标卡、训练服务器

    Device ID

    设备ID号

    Chip ID

    芯片ID号

    DIE ID

    芯片的DIE ID

    AI Core Information

    AI Core信息

    包括以下信息:

    • AI Core Count:AI Core 个数
    • AI Core Usage (%):AI Core利用率
    • Cube Count:Cube个数
    • Vector Count:Vector个数

    CPU Information

    CPU信息

    包括以下信息:

    • AI CPU Count:AI CPU个数
    • AI CPU Usage (%):AI CPU利用率
    • Control CPU Count:Control CPU 个数
    • Control CPU Usage (%):Control CPU利用率
    • Control CPU Frequency (MHz):Control CPU频率

    Memory Information

    内存信息

    包括以下信息:

    • Total (MB):总容量
    • Used (MB):已使用
    • Bandwidth Usage (%):内存带宽使用率
    • Frequency (MHz):内存频率

    Power Information

    功耗信息

    Real-time Power (W):实时功耗(只有在训练服务器执行命令时显示)

    Temperature (C)

    芯片温度

    PCIe Information

    PCIe信息

    包括以下信息:

    • Domain:PCIe域
    • Bus:PCIe总线编号
    • Device:PCIe设备号
    • Bus ID:PCIe总线地址
    • Subvendor ID:子系统厂商识别码
    • Subdevice ID:子设备号
    • LnkCap Speed:链路最大速率
    • LnkCap Width:链路最大带宽
    • LnkSta Speed:链路当前速率
    • LnkSta Width:链路当前带宽
    • CPU Affinity:亲和性CPU

    Error Information

    错误信息

    Error Count

    错误个数

    ECC Information

    ECC信息

    DDR

    卡的内存类型,有以下四种内存类型显示可能:

    • DDR
    • SRAM
    • HBM
    • NPU

    本项显示中包括以下信息:

    • Single-Bit Error Count:单bit错误计数
    • Double-Bit Error Count:双bit错误计数

    执行ascend-dmi -i --dt命令时,可能会出现以下情况:

    • 非root用户执行,部分检测项会出现<Access denied. Please switch to root and try again.>字样,若用户需要获取这部分信息可切换到root用户重新执行命令。
    • 容器中执行,部分检测项会出现Unknown字样,若用户需要获取这部分信息可离开容器重新执行命令。
  • 以查看芯片的基本信息为例。

    ascend-dmi -i -b

    以下为各类服务器返回的查询芯片的基本信息示例,如返回对应信息表示工具运行正常。

    1. 推理服务器(此处以Ascend 310芯片为例,Ascend 310P芯片类似)
      图6 设备实时状态查询示例(推理服务器)
    2. 训练服务器
      图7 设备实时状态查询示例(训练服务器)
    3. Atlas 300T 训练卡(型号 Pro-9000)
      图8 设备实时状态查询示例(Atlas 300T 训练卡(型号 Pro-9000))
    4. Atlas 200 AI加速模块(此处以Atlas 200 AI加速模块示例,Ascend 310B芯片类似)
      图9 设备实时状态查询示例(Atlas 200 AI加速模块)

    以上图中各类服务器参数介绍如表3所示。

    表3 显示界面参数说明

    参数

    说明

    产品形态

    Type

    标卡型号

    标卡

    Card

    卡ID号

    NPU Count

    NPU的个数

    Real-time Card Power

    当前板卡的实际功耗

    Chip

    芯片编号

    Name

    芯片名称

    Type

    芯片型号

    训练服务器

    NPU Count

    NPU数量

    Chip Name

    芯片名称

    Power

    功耗

    Health

    芯片健康程度

    标卡、训练服务器

    Used Memory

    内存使用信息

    Temperature

    芯片当前温度

    Voltage

    芯片当前电压

    Device ID

    芯片设备号

    Bus ID

    PCIe总线地址

    AI Core Usage

    芯片AI Core的使用率

搜索结果
找到“0”个结果

当前产品无相关内容

未找到相关内容,请尝试其他搜索词