下载
中文
注册
我要评分
文档获取效率
文档正确性
内容完整性
文档易理解
在线提单
论坛求助
昇腾小AI

简介

Ascend DMI(Ascend Device Management Interface)工具通过调用底层DCMI(设备控制管理接口)以及AscendCL(Ascend Computing Language,昇腾计算语言)相关接口完成相关检测功能,对于系统级别的信息查询通过调用系统提供的通用库来实现。Ascend DMI提供以下功能:Atlas硬件产品的兼容性检查、带宽测试、算力测试、功耗测试、诊断压测等。详细功能介绍如表1所示。

表1 工具功能介绍

功能名称

功能介绍

是否影响NPU训练或推理

查看帮助信息

查看Ascend DMI工具帮助信息。

查看版本信息

查看Ascend DMI工具版本信息。

带宽测试

测试总线带宽、内存带宽和总耗时。

超节点P2P带宽测试

超节点P2P带宽测试主要用于测试节点之间的网络传输速率和总耗时。

算力测试

测试整卡或芯片中AI Core的算力值和满算力下的实时功率。

功耗测试

检测整卡的功耗信息。

设备实时状态查询

检测设备在运行过程中的状态信息。

故障诊断

分别对软件类和硬件类进行诊断或压测,并输出诊断或压测结果,各检查类包含的项目如下:

故障诊断包含以下项目:

  • 软件类:驱动兼容性和驱动健康诊断,CANN各层软件的兼容性,CANN与驱动的兼容性。
  • 硬件类:Device,NetWork,BandWidth,Aiflops、片上内存、SignalQuality、Aicore。

压测包含以下项目:

  • 硬件类:片上内存、Aicore。

片上内存压测、Aicore压测、Aicore诊断、带宽诊断、算力诊断会影响NPU训练或推理作业,其他场景下不会影响NPU训练或推理作业。

眼图测试

查询当前信号质量。

码流测试

码流测试是通过对NPU芯片的RoCE网口收发PRBS码流,检查硬件链路的通信信号质量。

NPU环境恢复

NPU环境恢复即通过PCIe标准热复位流程复位昇腾AI处理器。

软硬件版本兼容性测试

获取硬件信息、架构、驱动版本、固件版本以及软件版本,并检测软硬件间的兼容性。

驱动固件版本兼容性测试

获取当前环境驱动版本和各个昇腾AI处理器的固件版本,并检测驱动固件版本间的兼容性诊断结果。

  • 上述功能在使用过程中如果报错,在对应日志中会产生错误码,错误码查询链接如下:aclErrorDCMI API返回码
  • 上述功能在使用过程中,建议用户在进程完成后再执行下一步操作,不建议在执行过程中终止进程。
搜索结果
找到“0”个结果

当前产品无相关内容

未找到相关内容,请尝试其他搜索词