设备实时状态查询
测试项功能
检测设备在运行过程中的状态信息。
使用实例
- 以查看芯片的详细信息为例。
以下为各类服务器返回的查询芯片的详细信息示例,如返回对应信息表示工具运行正常。
- 推理服务器
图1 设备实时状态查询示例(推理服务器)
- 使用ascend-dmi -i -dt 命令进行设备实时状态查询时,查询到的Memory Information字段结果为DDR的内存信息;当被查询设备为Atlas A2 系列产品时,查询到的Memory Information字段结果为高带宽内存的信息。
- 使用ascend-dmi -i命令进行设备实时状态查询时,查询到的Used Memory字段结果为DDR的内存信息;当被查询设备为Atlas A2 系列产品时,查询到的Memory Information字段结果为高带宽内存的信息。
- 训练服务器
图2 设备实时状态查询示例(训练服务器)
- 训练卡
图3 设备实时状态查询示例(Atlas 300T 训练卡(型号 9000))
- Atlas 200I A2 加速模块
图4 设备实时状态查询示例(Atlas 200I DK A2 开发者套件)
- Atlas 200 AI加速模块
图5 设备实时状态查询示例(Atlas 200 AI加速模块 RC场景)图6 设备实时状态查询示例(Atlas 200 AI加速模块 EP场景)
以上图中各类服务器参数介绍如表2所示。
表2 显示界面参数说明 参数
说明
产品形态
Type
芯片型号
训练服务器
NPU Count
NPU数量
Card Quantity
卡数量
标卡
Type
标卡型号
Card Manufacturer
卡生产商
Card Serial Number
卡序列号
Card ID
卡ID号
Real-time Card Power (W)
卡实时功耗
Device Count
设备数(NPU个数)
Chip Name
芯片名称
标卡、训练服务器
Device ID
芯片逻辑ID号
Chip ID
芯片ID号
DIE ID
芯片的DIE ID
AI Core Information
AI Core信息。包括以下信息:
- AI Core Count:AI Core 个数。
- AI Core Usage (%):AI Core利用率。
- Cube Count:Cube个数。
- Vector Count:Vector个数。
CPU Information
CPU信息。包括以下信息:
- AI CPU Count:AI CPU个数。
- AI CPU Usage (%):AI CPU利用率。
- Control CPU Count:Control CPU 个数。
- Control CPU Usage (%):Control CPU利用率。
- Control CPU Frequency (MHz):Control CPU频率。
Memory Information
内存信息。包括以下信息:
- Total (MB):总容量。
- Used (MB):已使用。
- Bandwidth Usage (%):内存带宽使用率。
- Frequency (MHz):内存频率。
Power Information
功耗信息。包括以下信息:
- Real-time Power (W):实时功耗(只有在训练服务器执行命令时显示)。
- Rated Power (W):芯片额定功耗。
Temperature (C)
芯片温度
voltage(V)
电压信息(V)
health
健康信息
PCIe Information
PCIe信息。包括以下信息:
- Domain:PCIe域。
- Bus:PCIe总线编号。
- Device:PCIe设备号。
- Bus ID:PCIe总线地址。
- Subvendor ID:子系统厂商识别码。
- Subdevice ID:子设备号。
- LnkCap Speed:链路最大速率。
- LnkCap Width:链路最大带宽。
- LnkSta Speed:链路当前速率。
- LnkSta Width:链路当前带宽。
- CPU Affinity:亲和性CPU。
Error Information
错误信息
Error Count
错误个数
ECC Information
ECC信息
DDR
卡的内存类型,有以下四种内存类型显示可能:
- DDR
- SRAM
- HBM
- NPU
本项显示中包括以下信息:
- Single-Bit Error Count:单bit错误计数。
- Double-Bit Error Count:双bit错误计数。
标卡、训练服务器
(Atlas A2训练系列产品上不支持查询该结果)
执行ascend-dmi -i --dt命令时,可能会出现以下情况:
- 非root用户执行,部分检测项会出现<Access denied. Please switch to root and try again.>字样,若用户需要获取这部分信息可切换到root用户重新执行命令。
- 容器中执行,部分检测项会出现Unknown字样,若用户需要获取这部分信息可离开容器重新执行命令。
- 推理服务器
- 以查看芯片的基本信息为例。
以下为各类服务器返回的查询芯片的基本信息示例,如返回对应信息表示工具运行正常。
- 推理服务器
图7 设备实时状态查询示例(推理服务器)
- 训练服务器
图8 设备实时状态查询示例(训练服务器)
- Atlas 300T 训练卡
图9 设备实时状态查询示例(Atlas 300T 训练卡(型号 Pro-9000))
- Atlas 200I A2 加速模块
图10 设备实时状态查询示例(Atlas 200I DK A2 开发者套件)
- Atlas 200 AI加速模块
图11 设备实时状态查询示例(Atlas 200 AI加速模块)
以上图中各类服务器参数介绍如表3所示。
表3 显示界面参数说明 参数
说明
产品形态
Type
标卡型号
标卡
Card
卡ID号
NPU Count
NPU的个数
Real-time Card Power
当前板卡的实际功耗
Chip
芯片编号
Name
芯片名称
Type
芯片型号
训练服务器
NPU Count
NPU数量
Chip Name
芯片名称
Power
功耗
Health
芯片健康程度
标卡、训练服务器
Used Memory
内存使用信息
Temperature
芯片当前温度
Voltage
芯片当前电压
Device ID
芯片逻辑ID号
Bus ID
PCIe总线地址
AI Core Usage
芯片AI Core的使用率
- 推理服务器