简介
Ascend DMI(Ascend Device Management Interface)工具通过调用底层DCMI(设备控制管理接口)以及AscendCL(Ascend Computing Language,昇腾计算语言)相关接口完成相关检测功能,对于系统级别的信息查询通过调用系统提供的通用库来实现。Ascend DMI提供以下功能:Atlas硬件产品的兼容性检查、带宽测试、算力测试、功耗测试、诊断压测等。详细功能介绍如表1所示。
功能名称 |
功能介绍 |
是否影响NPU训练或推理 |
---|---|---|
查看帮助信息 |
查看Ascend DMI工具帮助信息。 |
否 |
查看版本信息 |
查看Ascend DMI工具版本信息。 |
否 |
带宽测试 |
测试总线带宽、内存带宽和总耗时。 |
是 |
超节点P2P带宽测试 |
超节点P2P带宽测试主要用于测试节点之间的网络传输速率和总耗时。 |
是 |
算力测试 |
测试整卡或芯片中AI Core的算力值和满算力下的实时功率。 |
是 |
功耗测试 |
检测整卡的功耗信息。 |
是 |
设备实时状态查询 |
检测设备在运行过程中的状态信息。 |
否 |
故障诊断 |
分别对软件类和硬件类进行诊断或压测,并输出诊断或压测结果,各检查类包含的项目如下: 故障诊断包含以下项目:
压测包含以下项目:
|
片上内存压测、Aicore压测、Aicore诊断、带宽诊断、算力诊断会影响NPU训练或推理作业,其他场景下不会影响NPU训练或推理作业。 |
眼图测试 |
查询当前信号质量。 |
否 |
码流测试 |
码流测试是通过对NPU芯片的RoCE网口收发PRBS码流,检查硬件链路的通信信号质量。 |
是 |
NPU环境恢复 |
NPU环境恢复即通过PCIe标准热复位流程复位昇腾AI处理器。 |
是 |
软硬件版本兼容性测试 |
获取硬件信息、架构、驱动版本、固件版本以及软件版本,并检测软硬件间的兼容性。 |
否 |
驱动固件版本兼容性测试 |
获取当前环境驱动版本和各个昇腾AI处理器的固件版本,并检测驱动固件版本间的兼容性诊断结果。 |
否 |