设备实时状态查询
测试项功能
设备实时状态查询是检测设备在运行过程中的状态信息。
使用实例
- 以查看芯片的详细信息为例。
以下为各类服务器返回的查询芯片的详细信息示例,如返回对应信息表示工具运行正常。
- 推理服务器(此处以Ascend 310芯片为例,Ascend 310P芯片和Atlas 500 A2 智能小站类似)
图1 设备实时状态查询示例(推理服务器)
- 训练服务器
图2 设备实时状态查询示例(训练服务器)
- Atlas 300T 训练卡(型号 9000)
图3 设备实时状态查询示例(Atlas 300T 训练卡(型号 9000))
- Atlas 200 AI加速模块
图4 设备实时状态查询示例(Atlas 200 AI加速模块 RC场景,Atlas 200I A2 加速模块和Atlas 200I DK A2 开发者套件类似)
图5 设备实时状态查询示例(Atlas 200 AI加速模块 EP场景)
以上图中各类服务器参数介绍如表2所示。
表2 显示界面参数说明 参数
说明
产品形态
Type
芯片型号
训练服务器
NPU Count
NPU数量
Card Quantity
卡数量
标卡
Type
标卡型号
Card Manufacturer
卡生产商
Card Serial Number
卡序列号
Card ID
卡ID号
Real-time Card Power (W)
卡实时功耗
Device Count
设备数(NPU个数)
Chip Name
芯片名称
标卡、训练服务器
Device ID
设备ID号
Chip ID
芯片ID号
DIE ID
芯片的DIE ID
AI Core Information
AI Core信息
包括以下信息:
- AI Core Count:AI Core 个数
- AI Core Usage (%):AI Core利用率
- Cube Count:Cube个数
- Vector Count:Vector个数
CPU Information
CPU信息
包括以下信息:
- AI CPU Count:AI CPU个数
- AI CPU Usage (%):AI CPU利用率
- Control CPU Count:Control CPU 个数
- Control CPU Usage (%):Control CPU利用率
- Control CPU Frequency (MHz):Control CPU频率
Memory Information
内存信息
包括以下信息:
- Total (MB):总容量
- Used (MB):已使用
- Bandwidth Usage (%):内存带宽使用率
- Frequency (MHz):内存频率
Power Information
功耗信息
Real-time Power (W):实时功耗(只有在训练服务器执行命令时显示)
Temperature (C)
芯片温度
PCIe Information
PCIe信息
包括以下信息:
- Domain:PCIe域
- Bus:PCIe总线编号
- Device:PCIe设备号
- Bus ID:PCIe总线地址
- Subvendor ID:子系统厂商识别码
- Subdevice ID:子设备号
- LnkCap Speed:链路最大速率
- LnkCap Width:链路最大带宽
- LnkSta Speed:链路当前速率
- LnkSta Width:链路当前带宽
- CPU Affinity:亲和性CPU
Error Information
错误信息
Error Count
错误个数
ECC Information
ECC信息
DDR
卡的内存类型,有以下四种内存类型显示可能:
- DDR
- SRAM
- HBM
- NPU
本项显示中包括以下信息:
- Single-Bit Error Count:单bit错误计数
- Double-Bit Error Count:双bit错误计数
执行ascend-dmi -i --dt命令时,可能会出现以下情况:
- 非root用户执行,部分检测项会出现<Access denied. Please switch to root and try again.>字样,若用户需要获取这部分信息可切换到root用户重新执行命令。
- 容器中执行,部分检测项会出现Unknown字样,若用户需要获取这部分信息可离开容器重新执行命令。
- 推理服务器(此处以Ascend 310芯片为例,Ascend 310P芯片和Atlas 500 A2 智能小站类似)
- 以查看芯片的基本信息为例。
以下为各类服务器返回的查询芯片的基本信息示例,如返回对应信息表示工具运行正常。
- 推理服务器(此处以Ascend 310芯片为例,Ascend 310P芯片类似)
图6 设备实时状态查询示例(推理服务器)
- 训练服务器
图7 设备实时状态查询示例(训练服务器)
- Atlas 300T 训练卡(型号 Pro-9000)
图8 设备实时状态查询示例(Atlas 300T 训练卡(型号 Pro-9000))
- Atlas 200 AI加速模块(此处以Atlas 200 AI加速模块示例,Ascend 310B芯片类似)
图9 设备实时状态查询示例(Atlas 200 AI加速模块)
以上图中各类服务器参数介绍如表3所示。
表3 显示界面参数说明 参数
说明
产品形态
Type
标卡型号
标卡
Card
卡ID号
NPU Count
NPU的个数
Real-time Card Power
当前板卡的实际功耗
Chip
芯片编号
Name
芯片名称
Type
芯片型号
训练服务器
NPU Count
NPU数量
Chip Name
芯片名称
Power
功耗
Health
芯片健康程度
标卡、训练服务器
Used Memory
内存使用信息
Temperature
芯片当前温度
Voltage
芯片当前电压
Device ID
芯片设备号
Bus ID
PCIe总线地址
AI Core Usage
芯片AI Core的使用率
- 推理服务器(此处以Ascend 310芯片为例,Ascend 310P芯片类似)