uname -m && cat /etc/*release uname -r
OS内核版本和对应的安装方式如表1所示。有以下场景:
OS版本 |
内核版本 |
安装NPU驱动方式 |
---|---|---|
openEuler 22.03 LTS |
5.10.0-60.18.0.50.oe2203 |
直接安装 |
Ubuntu 18.04.4 |
4.19.90+ |
|
Ubuntu 18.04.5 |
4.15.0-159 |
|
Ubuntu 18.04.6 |
4.15.0-212 5.4.0-152 |
|
Ubuntu 20.04 |
5.4.0-26 |
|
Ubuntu 20.04.4 |
5.13.0-30 |
修改驱动包可安装 |
Ubuntu 20.04.5 |
5.15.0-58 |
|
Ubuntu 20.04.6 |
5.15.0-76 5.4.0-186 |
|
Ubuntu 22.04 |
5.4.0-182 |
|
Ubuntu 22.04.2 |
5.15.0-60 |
|
Ubuntu 22.04.2 |
6.5.0-44 |
内核版本降至5.15.0-119,再修改驱动可安装 |
Ubuntu 22.04.4 |
6.5.0-45 |
内核版本降至5.15.0-97,再修改驱动包可安装 |
groupadd HwHiAiUser useradd -g HwHiAiUser -d /home/HwHiAiUser -m HwHiAiUser -s /bin/bash
需要安装make、dkms、gcc、linux-header驱动源码编译所需依赖。
make -v dpkg-query -s dkms dpkg-query -s gcc dpkg-query -s linux-headers-$(uname -r)
apt-get install -y make dkms gcc linux-headers-$(uname -r)
需要安装make、dkms、gcc、kernel-devel软件包。
make -v rpm -qa | grep dkms rpm -qa | grep gcc rpm -qa | grep kernel-devel-$(uname -r)
yum install -y make dkms gcc kernel-devel-$(uname -r)
chmod +x Ascend-hdk-310p-npu-driver_24.1.rc3_linux-aarch64.run chmod +x Ascend-hdk-310p-npu-firmware_7.5.0.1.129.run
chmod +x Ascend-hdk-310p-npu-driver_24.1.rc3_linux-x86-64.run chmod +x Ascend-hdk-310p-npu-firmware_7.5.0.1.129.run
./Ascend-hdk-310p-npu-driver_24.1.rc3_linux-x86-64.run --full --install-for-all
[ERROR]The list of missing tools: lspci,ifconfig,
[ERROR]Dkms install failed, details in : var/log/ascend_seclog/ascend_install.log. [ERROR]Driver_ko_install failed, details in : /var/log/ascend_seclog/ascend_install.log.
[ERROR]The given directory, including its parents, should belong to root, details in : var/log/ascend_seclog/ascend_install.log.
Driver package installed successfully!
若系统出现如下关键回显信息,表示固件安装成功。
Firmware package installed successfully! Reboot now or after driver installation for the installation/upgrade to take effect
若出现类似如下图所示回显信息,说明加载成功。否则,说明加载失败。请联系华为技术支持处理。
Ubuntu 22.04.x在使用官方源或外部源时默认开启内核更新功能,安装部分软件包将自动升级内核到源里的新版本,在当前内核版本作为使用场景时,需要在软件安装后对内核版本进行锁定。
执行如下命令锁定内核(命令中的5.15.0-94版本仅为示例)。
apt-mark hold linux-image-5.15.0-94-generic linux-headers-5.15.0-94-generic linux-modules-5.15.0-94-generic linux-modules-extra-5.15.0-94-generic
部分OS内核版本需要修改驱动包后才能安装NPU驱动固件,本文以OS内核5.15.0为例介绍修改驱动包的方法,更多案例请参见修改驱动包(内核 5.13.0)和修改驱动包(内核5.4.0-198)。
部分OS需要先降低内核版本,再修改驱动包后才能安装NPU驱动固件,请参见升降内核。
cat /var/log/ascend_seclog/ascend_install.log
cat /var/lib/dkms/davinci_ascend/1.0/build/make.log
./Ascend-hdk-310p-npu-driver_24.1.rc3_linux-aarch64.run --noexec --extract=./tmp
./Ascend-hdk-310p-npu-driver_24.1.rc3_linux-x86-64.run --noexec --extract=./tmp
cd tmp/driver/kernel/vmng_host vi Makefile
修改后如下图所示。
/usr/local/Ascend/driver/script/uninstall.sh
./driver/script/install.sh -- -- --full
./Ascend-hdk-310p-npu-driver_24.1.rc3_linux-aarch64.run --repack-path=./tmp new_driver_5.15.0.run
./Ascend-hdk-310p-npu-driver_24.1.rc3_linux-x86-64.run --repack-path=./tmp new_driver_5.15.0.run
cat /var/log/ascend_seclog/ascend_rebuild.log
NPU驱动固件安装完成后,可执行如下步骤查看芯片温度是否超标,导致设备不可用或是性能下降。温度规格参考表2。
npu-smi info -t temp -i id
id表示设备id。通过npu-smi info -l命令查出的NPU ID即为设备id。
命令示例如下,查询设备1的芯片温度。
npu-smi info -t temp -i 1
回显类似如下信息:
NPU ID : 1 Chip Count : 1 Temperature (C) : 44 Chip ID : 0 LM75A_TE (C) : 41 LM75B_TE (C) : 36 AICORE (C) : 43 Chip Name : MCU
字段 |
说明 |
---|---|
NPU ID |
设备id |
Chip Count |
芯片个数 |
Temperature (C) |
温度(单位:°C) 102℃以下表示芯片温度正常。 |
Chip ID |
芯片id |
LM75A_TE (C) |
LM75A_TE温度(单位:°C) |
LM75B_TE (C) |
LM75B_TE温度(单位:°C) |
AICORE (C) |
AICORE温度(单位:°C) |
Chip Name |
芯片名称 |
MCU是推理卡带外管理模块,具备单板监测、故障上报等功能。出厂时推理卡已集成了初始版本,为了保障所有功能正常使用,请将MCU升级到配套版本。
本节内容主要介绍通过npu-smi工具和iBMC升级MCU,npu-smi工具可以将单个推理卡的MCU升级到相应版本,如果配备了多个推理卡,需要逐个升级,iBMC可以批量升级到相应版本。
如果现场使用Atlas 800 推理服务器(型号:3000)和TaiShan 200服务器,配置Atlas 300V 视频解析卡,请通过iBMC Web界面升级。
如果现场使用第三方服务器,配置Atlas 300V 视频解析卡,请通过npu-smi工具升级。
Ascend-hdk-310p-mcu_24.2.2.hpm
Card Count : 1 NPU ID : 8 Product Name : IT21DMPB01 Serial Number : 033EFS10M8000087 Chip Count : 4
npu-smi upgrade -t mcu -i NPU ID -f Ascend-hdk-310p-mcu_24.2.2.hpm
出现类似如下回显表示升级成功。
Start upgrade [100]. Status : OK Message : Start device upgrade successfully Message : need active mcu
npu-smi upgrade -a mcu -i NPU ID
Status : OK Message : The upgrade has taken effect after performed reboot successfully.
Version : 24.2.2
Ascend-hdk-310p-mcu_24.2.2.hpm
Card Count : 1 NPU ID : 8 Product Name : IT21DMPB01 Serial Number : 033EFS10M8000087 Chip Count : 4
输入“用户名”和“密码”登录iBMC Web界面。