设备实时状态查询
设备实时状态查询是检测设备在运行过程中的状态信息。
测试项参数查询
用户可任选以下指令之一查看设备实时状态查询命令的可用参数。
ascend-dmi -i -h
ascend-dmi -i --help
各参数解释如表1所示。
参数 |
说明 |
是否必填 |
---|---|---|
[-i, --info, info] |
使用该参数进行设备实时状态查询。 |
是 |
[-b, --brief] |
使用该参数查看芯片的基本信息。 |
否 |
[-dt, --dt, --detail] |
使用该参数查看芯片的详细信息。 |
否 |
不填写--dt与-b参数 |
默认查看芯片的基本信息。 |
否 |
[-fmt, --fmt, --format] |
指定输出格式,可以为normal或json。 若未指定则默认为normal。 |
否 |
使用实例
以查看芯片的详细信息为例。
ascend-dmi -i --dt
若推理服务器返回如图1所示信息(此处以Ascend 310P芯片为例),表示工具运行正常,图中参数介绍如表2所示。
显示界面参数说明如下表。
参数 |
说明 |
产品形态 |
---|---|---|
Card Quantity |
卡数量。 |
标卡 |
Type |
标卡型号。 |
|
Card Manufacturer |
卡生产商。 |
|
Card Serial Number |
卡序列号。 |
|
Card ID |
卡ID号。 |
|
Real-time Card Power (W) |
卡实时功耗。 |
|
Device Count |
设备数(NPU个数)。 |
|
Chip Name |
芯片名称。 |
标卡、训练服务器 |
Device ID |
设备ID号。 |
|
Chip ID |
芯片ID号。 |
|
DIE ID |
芯片的DIE ID。 |
|
AI Core Information |
AI Core信息。包括以下信息:
|
|
CPU Information |
CPU信息。包括以下信息:
|
|
Memory Information |
内存信息。包括以下信息:
|
|
Power Information |
功耗信息。包括以下信息:
|
|
Temperature (C) |
芯片温度 |
|
PCIe Information |
PCIe信息。包括以下信息:
|
|
Error Information |
错误信息。 |
|
Error Count |
错误个数。 |
|
ECC Information |
ECC信息。 |
|
DDR |
卡的内存类型。有以下四种内存类型显示可能:
本项显示中包括以下信息:
|

- 非root用户执行ascend-dmi -i --dt命令时,部分检测项会出现<Access denied. Please switch to root and try again.>字样,若用户需要获取这部分信息可切换到root用户重新执行命令。
- 容器中执行,部分检测项会出现Unknown字样,若用户需要获取这部分信息可离开容器重新执行命令。
以查看芯片的基本信息为例。
ascend-dmi -i -b
若推理服务器返回如图2所示信息(此处以Ascend 310P芯片为例),表示工具运行正常,图中参数介绍如表3所示。
显示界面参数说明如下表。