下载
中文
注册

设备实时状态查询

设备实时状态查询是检测设备在运行过程中的状态信息。

测试项参数查询

用户可任选以下指令之一查看设备实时状态查询命令的可用参数。

ascend-dmi -i -h

ascend-dmi -i --help

各参数解释如表1所示。

表1 参数说明

参数

说明

是否必填

[-i, --info, info]

使用该参数进行设备实时状态查询。

[-b, --brief]

使用该参数查看芯片的基本信息。

[-dt, --dt, --detail]

使用该参数查看芯片的详细信息。

不填写--dt与-b参数

默认查看芯片的基本信息。

[-fmt, --fmt, --format]

指定输出格式,可以为normal或json。

若未指定则默认为normal。

使用实例

以查看芯片的详细信息为例。

ascend-dmi -i --dt

若推理服务器返回如图1所示信息(此处以Ascend 310P芯片为例),表示工具运行正常,图中参数介绍如表2所示。

图1 设备实时状态查询示例(推理服务器)

显示界面参数说明如下表。

表2 显示界面参数说明

参数

说明

产品形态

Card Quantity

卡数量。

标卡

Type

标卡型号。

Card Manufacturer

卡生产商。

Card Serial Number

卡序列号。

Card ID

卡ID号。

Real-time Card Power (W)

卡实时功耗。

Device Count

设备数(NPU个数)。

Chip Name

芯片名称。

标卡、训练服务器

Device ID

设备ID号。

Chip ID

芯片ID号。

DIE ID

芯片的DIE ID。

AI Core Information

AI Core信息。包括以下信息:

  • AI Core Count: AI Core 个数。
  • AI Core Usage (%): AI Core利用率。
  • Cube Count: Cube个数。
  • Vector Count: Vector个数。

CPU Information

CPU信息。包括以下信息:

  • AI CPU Count: AI CPU个数。
  • AI CPU Usage (%): AI CPU利用率。
  • Control CPU Count: Control CPU 个数。
  • Control CPU Usage (%):Control CPU利用率。
  • Control CPU Frequency(MHz): Control CPU频率。

Memory Information

内存信息。包括以下信息:

  • Total (MB):总容量。
  • Total (MB):总容量。
  • Used (MB):已使用。
  • Bandwidth Usage (%):内存带宽使用率。
  • Frequency (MHz):内存频率。

Power Information

功耗信息。包括以下信息:

  • Real-time Power (W):实时功耗(只有在训练服务器执行命令时显示)。
  • Rated Power (W):芯片额定功耗。

Temperature (C)

芯片温度

PCIe Information

PCIe信息。包括以下信息:

  • Domain: PCIe域。
  • Bus: PCIe总线编号。
  • Device: PCIe设备号。
  • Bus ID: PCIe总线地址。
  • Subvendor ID:子系统厂商识别码。
  • Subdevice ID:子设备号。
  • LnkCap Speed:链路最大速率。
  • LnkCap Width:链路最大带宽。
  • LnkSta Speed:链路当前速率。
  • LnkSta Width:链路当前带宽。
  • CPU Affinity:亲和性。

Error Information

错误信息。

Error Count

错误个数。

ECC Information

ECC信息。

DDR

卡的内存类型。有以下四种内存类型显示可能:

  • DDR
  • SRAM
  • HBM
  • NPU

本项显示中包括以下信息:

  • Single-Bit Error Count:单bit错误计数。
  • Double-Bit Error Count:双bit错误计数。
  • root用户执行ascend-dmi -i --dt命令时,部分检测项会出现<Access denied. Please switch to root and try again.>字样,若用户需要获取这部分信息可切换到root用户重新执行命令。
  • 容器中执行,部分检测项会出现Unknown字样,若用户需要获取这部分信息可离开容器重新执行命令。

以查看芯片的基本信息为例。

ascend-dmi -i -b

若推理服务器返回如图2所示信息(此处以Ascend 310P芯片为例),表示工具运行正常,图中参数介绍如表3所示。

图2 设备实时状态查询示例(推理服务器)

显示界面参数说明如下表。

表3 显示界面参数说明

参数

说明

产品形态

Type

标卡型号。

标卡

Card

卡ID号。

NPU Count

NPU的个数。

Real-time Card Power

当前板卡的实际功耗。

Chip

芯片编号。

Name

芯片名称。

Health

芯片健康程度。

标卡、训练服务器

Used Memory

内存使用信息。

Temperature

芯片当前温度。

Voltage

芯片当前电压。

Device ID

芯片设备号。

Bus ID

芯片的Bus ID。

AI Core Usage

芯片AI Core的使用率。