DeepSeek-V3

点击DeepSeek专区获取更多资源

DeepSeek-V3

硬件要求

部署DeepSeek-V3模型用BF16权重进行推理至少需要4台Atlas 800I A2（8*64G）服务器，用W8A8量化权重进行推理则至少需要2台Atlas 800I A2 (8*64G)。

权重

权重下载

FP8原始权重下载

DeepSeek-V3
DeepSeek-V3-Base

DeepSeek-V3-0324

目前提供模型权重下载脚本，支持HuggingFace，ModelScope以及Modelers来源的模型下载，用法如下：

鉴于DeepSeek-V2、V3、R1系列模型结构高度相似，模块化后组图代码差异较小。为提升代码复用率并降低冗余，三个模型的共享代码模块已统一整合至DeepSeek-V2文件夹中注意：以下引用的atb_models路径在DeepSeek-V2路径下：

git clone https://gitee.com/ascend/ModelZoo-PyTorch.git
cd ModelZoo-PyTorch/MindIE/LLM/DeepSeek/DeepSeek-V2/

确认atb_models/build/weights_url.yaml文件中对应repo_id，当前已默认配置模型官方认可的下载地址，如您有其他信任来源的repo_id，可自行修改，默认配置如下：

HuggingFace: deepseek-ai/DeepSeek-V3
ModelScope: deepseek-ai/DeepSeek-V3
Modelers: None

执行下载脚本atb_models/build/download_weights.py:

python3 atb_models/build/download_weights.py

参数名	含义
hub	可选，str类型参数，hub来源，支持HuggingFace, ModelScope, Modelers
repo_id	可选，str类型参数，仓库ID，默认从weight_url.yaml中读取
target_dir	可选，str类型参数，默认放置在atb_models同级目录下

权重转换（Convert FP8 weights to BF16）

NPU侧权重转换

注意：

DeepSeek官方没有针对DeepSeek-V3提供新的权重转换脚本，所以复用DeepSeek-V2的权重转换脚本。
若用户使用上方脚本下载权重，则无需使用以下git clone命令，直接进入权重转换脚本目录。

git clone https://gitee.com/ascend/ModelZoo-PyTorch.git

cd ModelZoo-PyTorch/MindIE/LLM/DeepSeek/DeepSeek-V2/NPU_inference

python fp8_cast_bf16.py --input-fp8-hf-path {/path/to/DeepSeek-V3} --output-bf16-hf-path {/path/to/DeepSeek-V3-bf16}

目前npu转换脚本不会自动复制tokenizer等文件，需要将原始权重的tokenizer.json, tokenizer_config.json等文件复制到转换之后的路径下。

注意：

/path/to/DeepSeek-V3 表示DeepSeek-V3原始权重路径，/path/to/DeepSeek-V3-bf16 表示权重转换后的新权重路径。
由于模型权重较大，请确保您的磁盘有足够的空间放下所有权重，例如DeepSeek-V3在转换前权重约为640G左右，在转换后权重约为1.3T左右。
推理作业时，也请确保您的设备有足够的空间加载模型权重，并为推理计算预留空间。

BF16原始权重下载

也可以通过HuggingFace，ModelScope等开源社区直接下载BF16模型权重：

来源	链接
huggingface	https://huggingface.co/unsloth/DeepSeek-V3-bf16/
modelscope	https://modelscope.cn/models/unsloth/deepseek-V3-bf16/
modelers	https://modelers.cn/models/State_Cloud/Deepseek-V3-BF16

DeepSeek-V3-0324的BF16模型权重链接为：

来源	链接
huggingface	https://huggingface.co/unsloth/DeepSeek-V3-0324-BF16/
modelscope	https://www.modelscope.cn/models/unsloth/DeepSeek-V3-0324-BF16/

W8A8量化权重生成(BF16 to INT8)

目前支持：生成模型w8a8混合量化权重，使用histogram量化方式 (MLA:w8a8量化，MOE:w8a8 dynamic pertoken量化)。

详情请参考 DeepSeek模型量化方法介绍。

注意：DeepSeek-V3模型权重较大，量化权重生成时间较久，请耐心等待；具体时间与校准数据集大小成正比，10条数据大概需花费3小时。

昇腾原生量化W8A8权重下载(动态量化)

也可以通过Modelers等开源社区直接下载昇腾原生量化W8A8模型权重：

推理前置准备

修改模型文件夹属组为1001 -HwHiAiUser属组（容器为Root权限可忽视）
执行权限为750：

chown -R 1001:1001 {/path-to-weights/DeepSeek-V3}
chmod -R 750 {/path-to-weights/DeepSeek-V3}

推理前置准备

修改权重目录下的config.json文件

将 model_type 更改为 deepseekv2 (全小写且无空格)

"model_type": "deepseekv2"

注意：在本仓实现中，DeepSeek-V3目前沿用DeepSeekV2代码框架。

检查机器网络情况

# 1.检查物理链接
for i in {0..7}; do hccn_tool -i $i -lldp -g | grep Ifname; done

# 2.检查链接情况
for i in {0..7}; do hccn_tool -i $i -link -g ; done

# 3.检查网络健康情况
for i in {0..7}; do hccn_tool -i $i -net_health -g ; done

# 4.查看侦测ip的配置是否正确
for i in {0..7}; do hccn_tool -i $i -netdetect -g ; done

# 5.查看网关是否配置正确
for i in {0..7}; do hccn_tool -i $i -gateway -g ; done

# 6.检查NPU底层tls校验行为一致性，建议统一全部设置为0，避免hccl报错
for i in {0..7}; do hccn_tool -i $i -tls -g ; done | grep switch

# 7.NPU底层tls校验行为置0操作，建议统一全部设置为0，避免hccl报错
for i in {0..7};do hccn_tool -i $i -tls -s enable 0;done

获取每张卡的ip地址

for i in {0..7};do hccn_tool -i $i -ip -g; done

需要用户自行创建rank_table_file.json，参考如下格式配置

以下是一个双机用例，用户自行添加ip，补全device：

{
   "server_count": "2",
   "server_list": [
      {
         "device": [
            {
               "device_id": "0",
               "device_ip": "...",
               "rank_id": "0"
            },
            {
               "device_id": "1",
               "device_ip": "...",
               "rank_id": "1"
            },
            ...
            {
               "device_id": "7",
               "device_ip": "...",
               "rank_id": "7"
            },
         ],
         "server_id": "...",
         "container_ip": "..."
      },
      {
         "device": [
            {
               "device_id": "0",
               "device_ip": "...",
               "rank_id": "8"
            },
            {
               "device_id": "1",
               "device_ip": "...",
               "rank_id": "9"
            },
            ...
            {
               "device_id": "7",
               "device_ip": "...",
               "rank_id": "15"
            },
         ],
         "server_id": "...",
         "container_ip": "..."
      },
   ],
   "status": "completed",
   "version": "1.0"
}

参数	说明
server_count	总节点数
server_list	server_list中第一个server为主节点
device_id	当前卡的本机编号，取值范围[0, 本机卡数)
device_ip	当前卡的ip地址，可通过hccn_tool命令获取
rank_id	当前卡的全局编号，取值范围[0, 总卡数)
server_id	当前节点的ip地址
container_ip	容器ip地址（服务化部署时需要），若无特殊配置，则与server_id相同

rank_table_file.json配置完成后，需要执行命令修改权限为640

chmod -R 640 {rank_table_file.json路径}

加载镜像

需要使用mindie:2.0.T3及其后版本。

前往昇腾社区/开发资源下载适配，下载镜像前需要申请权限，耐心等待权限申请通过后，根据指南下载对应镜像文件。

DeepSeek-V3的镜像版本：2.0.T3-800I-A2-py311-openeuler24.03-lts 镜像加载后的名称：swr.cn-south-1.myhuaweicloud.com/ascendhub/mindie:2.0.T3-800I-A2-py311-openeuler24.03-lts。

完成之后，请使用docker images命令确认查找具体镜像名称与标签。

docker images

各组件版本配套如下：

组件	版本
MindIE	2.0.T3
CANN	8.0.T63
Pytorch	6.0.T700
MindStudio	Msit: br_noncom_MindStudio_8.0.0_POC_20251231分支
Ascend HDK	24.1.0

容器启动

启动容器

执行以下命令启动容器（参考）：

docker run -itd --privileged  --name= {容器名称}  --net=host \
   --shm-size 500g \
   --device=/dev/davinci0 \
   --device=/dev/davinci1 \
   --device=/dev/davinci2 \
   --device=/dev/davinci3 \
   --device=/dev/davinci4 \
   --device=/dev/davinci5 \
   --device=/dev/davinci6 \
   --device=/dev/davinci7 \
   --device=/dev/davinci_manager \
   --device=/dev/hisi_hdc \
   --device /dev/devmm_svm \
   -v /usr/local/Ascend/driver:/usr/local/Ascend/driver \
   -v /usr/local/Ascend/firmware:/usr/local/Ascend/firmware \
   -v /usr/local/sbin/npu-smi:/usr/local/sbin/npu-smi \
   -v /usr/local/sbin:/usr/local/sbin \
   -v /etc/hccn.conf:/etc/hccn.conf \
   -v  {/权重路径:/权重路径}  \
   -v  {/rank_table_file.json路径:/rank_table_file.json路径}  \
    {swr.cn-south-1.myhuaweicloud.com/ascendhub/mindie:1.0.0-XXX-800I-A2-arm64-py3.11（根据加载的镜像名称修改）}  \
   bash

进入容器

执行以下命令进入容器（参考）：

docker exec -it {容器名称} bash

设置基础环境变量

source /usr/local/Ascend/ascend-toolkit/set_env.sh
source /usr/local/Ascend/nnal/atb/set_env.sh
source /usr/local/Ascend/atb-models/set_env.sh
source /usr/local/Ascend/mindie/set_env.sh

开启通信环境变量

export ATB_LLM_HCCL_ENABLE=1
export ATB_LLM_COMM_BACKEND="hccl"
export HCCL_CONNECT_TIMEOUT=7200 # 该环境变量需要配置为整数，取值范围[120,7200]，单位s
双机：
export WORLD_SIZE=16
四机：
export WORLD_SIZE=32
export HCCL_EXEC_TIMEOUT=0

纯模型推理

【使用场景】使用相同输入长度和相同输出长度，构造多Batch去测试纯模型性能

精度测试

进入modeltest路径

cd /usr/local/Ascend/atb-models/tests/modeltest/

运行测试脚本

Step1.主副节点分别先清理残余进程：

pkill -9 -f 'mindie|python'

Step2.需在所有机器上同时执行：

bash run.sh pa_[data_type] [dataset] ([shots]) [batch_size] [model_name] ([is_chat_model]) [weight_dir] [rank_table_file] [world_size] [node_num] [rank_id_start] [master_address] ([parallel_params])

参数说明：

data_type：为数据类型，根据权重目录下config.json的data_type选择bf16或者fp16，例如：pa_bf16。
dataset：可选full_BoolQ、full_CEval等，相关数据集可至魔乐社区MindIE下载，（下载之前，需要申请加入组织，下载之后拷贝到/usr/local/Ascend/atb-models/tests/modeltest/路径下）CEval与MMLU等数据集需要设置shots（通常设为5）。
batch_size：为batch数。
model_name：为deepseekv2。
is_chat_model：为是否支持对话模式，若传入此参数，则进入对话模式。
weight_dir：为模型权重路径。
rank_table_file：为“前置准备”中配置的rank_table_file.json路径。
world_size：为总卡数。
node_num：为当前节点编号，即rank_table_file.json的server_list中顺序确定。
rank_id_start：为当前节点起始卡号，即rank_table_file.json中当前节点第一张卡的rank_id，Atlas 800I-A2双机场景下，主节点为0，副节点为8。
master_address：为主节点ip地址，即rank_table_file.json的server_list中第一个节点的ip。
parallel_params: 接受一组输入，格式为[dp,tp,moe_tp,moe_ep,pp,microbatch_size],如[8,1,8,-1,-1,-1]

测试脚本运行如下，以双机为例：

样例 -CEval 带shot

主节点

bash run.sh pa_bf16 full_CEval 5 1 deepseekv2 {/path/to/weights/DeepSeek-V3} {/path/to/xxx/ranktable.json} 16 2 0 {主节点IP}
# 0 代表从0号卡开始推理，之后的机器依次从8，16，24。

副节点

bash run.sh pa_bf16 full_CEval 5 1 deepseekv2 {/path/to/weights/DeepSeek-V3} {/path/to/xxx/ranktable.json} 16 2 8 {主节点IP}
# 0 代表从0号卡开始推理，之后的机器依次从8，16，24。

样例 -GSM8K 不带shot

主节点

bash run.sh pa_bf16 full_GSM8K 8 deepseekv2 {/path/to/weights/DeepSeek-V3} {/path/to/xxx/ranktable.json} 16 2 0 {主节点IP}
# 0 代表从0号卡开始推理，之后的机器依次从8，16，24。

副节点

bash run.sh pa_bf16 full_GSM8K 8 deepseekv2 {/path/to/weights/DeepSeek-V3} {/path/to/xxx/ranktable.json} 16 2 8 {主节点IP}
# 0 代表从0号卡开始推理，之后的机器依次从8，16，24。

性能测试

进入modeltest路径：

cd /usr/local/Ascend/atb-models/tests/modeltest/

Step1.主副节点分别先清理残余进程：

pkill -9 -f 'mindie|python'

Step2.需在所有机器上同时执行：

bash run.sh pa_[data_type] performance [case_pair] [batch_size] ([prefill_batch_size]) [model_name] ([is_chat_model]) [weight_dir] [rank_table_file] [world_size] [node_num] [rank_id_start] [master_address] ([parallel_params])

参数说明：

data_type：为数据类型，根据权重目录下config.json的data_type选择bf16或者fp16，例如：pa_bf16。
case_pair：[最大输入长度,最大输出长度]。
batch_size：为batch数。
prefill_batch_size：为可选参数，设置后会固定prefill的batch size。
model_name：为deepseekv2。
is_chat_model：为是否支持对话模式，若传入此参数，则进入对话模式。
weight_dir：为模型权重路径。
rank_table_file：为“前置准备”中配置的rank_table_file.json路径。
world_size：为总卡数。
node_num：为当前节点编号，即rank_table_file.json的server_list中顺序确定。
rank_id_start：为当前节点起始卡号，即rank_table_file.json中当前节点第一张卡的rank_id，Atlas 800I-A2双机场景下，主节点为0，副节点为8。
master_address：为主节点ip地址，即rank_table_file.json的server_list中第一个节点的ip。
parallel_params: 接受一组输入，格式为[dp,tp,moe_tp,moe_ep,pp,microbatch_size],如[8,1,8,-1,-1,-1]

测试脚本运行如下，以双机为例：

主节点

bash run.sh pa_bf16 performance [[256,256]] 1 deepseekv2 {/path/to/weights/DeepSeek-V3} {/path/to/xxx/ranktable.json} 16 2 0 {主节点IP}
# 0 代表从0号卡开始推理，之后的机器依次从8，16，24。

副节点

bash run.sh pa_bf16 performance [[256,256]] 1 deepseekv2 {/path/to/weights/DeepSeek-V3} {/path/to/xxx/ranktable.json} 16 2 8 {主节点IP}
# 0 代表从0号卡开始推理，之后的机器依次从8，16，24。

服务化推理

【使用场景】对标真实客户上线场景，使用不同并发、不同发送频率、不同输入长度和输出长度分布，去测试服务化性能

配置服务化环境变量

变量含义：expandable_segments-使能内存池扩展段功能，即虚拟内存特性。更多详情请查看昇腾环境变量参考。

export PYTORCH_NPU_ALLOC_CONF=expandable_segments:True

服务化需要rank_table_file.json中配置container_ip字段。所有机器的配置应该保持一致，除了环境变量的MIES_CONTAINER_IP为本机ip地址。

export MIES_CONTAINER_IP={容器ip地址}
export RANKTABLEFILE={rank_table_file.json路径}

修改服务化参数

cd /usr/local/Ascend/mindie/latest/mindie-service/
vim conf/config.json

修改以下参数

"httpsEnabled" : false, # 如果网络环境不安全，不开启HTTPS通信，即“httpsEnabled”=“false”时，会存在较高的网络安全风险
...
"multiNodesInferEnabled" : true, # 开启多机推理
...
# 若不需要安全认证，则将以下两个参数设为false
"interCommTLSEnabled" : false,
"interNodeTLSEnabled" : false,
...
"npudeviceIds" : [[0,1,2,3,4,5,6,7]],
...
"modelName" : "DeepSeek-V3" # 不影响服务化拉起
"modelWeightPath" : "权重路径",
"worldSize":8,

Example：仅供参考，请根据实际情况修改

{
    "Version" : "1.0.0",
    "LogConfig" :
    {
        "logLevel" : "Info",
        "logFileSize" : 20,
        "logFileNum" : 20,
        "logPath" : "logs/mindie-server.log"
    },

    "ServerConfig" :
    {
        "ipAddress" : "改成主节点IP",
        "managementIpAddress" : "改成主节点IP",
        "port" : 1025,
        "managementPort" : 1026,
        "metricsPort" : 1027,
        "allowAllZeroIpListening" : false,
        "maxLinkNum" : 1000, //如果是4机，建议300
        "httpsEnabled" : false,
        "fullTextEnabled" : false,
        "tlsCaPath" : "security/ca/",
        "tlsCaFile" : ["ca.pem"],
        "tlsCert" : "security/certs/server.pem",
        "tlsPk" : "security/keys/server.key.pem",
        "tlsPkPwd" : "security/pass/key_pwd.txt",
        "tlsCrlPath" : "security/certs/",
        "tlsCrlFiles" : ["server_crl.pem"],
        "managementTlsCaFile" : ["management_ca.pem"],
        "managementTlsCert" : "security/certs/management/server.pem",
        "managementTlsPk" : "security/keys/management/server.key.pem",
        "managementTlsPkPwd" : "security/pass/management/key_pwd.txt",
        "managementTlsCrlPath" : "security/management/certs/",
        "managementTlsCrlFiles" : ["server_crl.pem"],
        "kmcKsfMaster" : "tools/pmt/master/ksfa",
        "kmcKsfStandby" : "tools/pmt/standby/ksfb",
        "inferMode" : "standard",
        "interCommTLSEnabled" : false,
        "interCommPort" : 1121,
        "interCommTlsCaPath" : "security/grpc/ca/",
        "interCommTlsCaFiles" : ["ca.pem"],
        "interCommTlsCert" : "security/grpc/certs/server.pem",
        "interCommPk" : "security/grpc/keys/server.key.pem",
        "interCommPkPwd" : "security/grpc/pass/key_pwd.txt",
        "interCommTlsCrlPath" : "security/grpc/certs/",
        "interCommTlsCrlFiles" : ["server_crl.pem"],
        "openAiSupport" : "vllm"
    },

    "BackendConfig" : {
        "backendName" : "mindieservice_llm_engine",
        "modelInstanceNumber" : 1,
        "npuDeviceIds" : [[0,1,2,3,4,5,6,7]],
        "tokenizerProcessNumber" : 8,
        "multiNodesInferEnabled" : true,
        "multiNodesInferPort" : 1120,
        "interNodeTLSEnabled" : false,
        "interNodeTlsCaPath" : "security/grpc/ca/",
        "interNodeTlsCaFiles" : ["ca.pem"],
        "interNodeTlsCert" : "security/grpc/certs/server.pem",
        "interNodeTlsPk" : "security/grpc/keys/server.key.pem",
        "interNodeTlsPkPwd" : "security/grpc/pass/mindie_server_key_pwd.txt",
        "interNodeTlsCrlPath" : "security/grpc/certs/",
        "interNodeTlsCrlFiles" : ["server_crl.pem"],
        "interNodeKmcKsfMaster" : "tools/pmt/master/ksfa",
        "interNodeKmcKsfStandby" : "tools/pmt/standby/ksfb",
        "ModelDeployConfig" :
        {
            "maxSeqLen" : 10000,
            "maxInputTokenLen" : 2048,
            "truncation" : true,
            "ModelConfig" : [
                {
                    "modelInstanceType" : "Standard",
                    "modelName" : "DeepSeek-V3",
                    "modelWeightPath" : "/home/data/dsv3_base_step178000",
                    "worldSize" : 8,
                    "cpuMemSize" : 5,
                    "npuMemSize" : -1,
                    "backendType" : "atb",
                    "trustRemoteCode" : false
                }
            ]
        },

        "ScheduleConfig" :
        {
            "templateType" : "Standard",
            "templateName" : "Standard_LLM",
            "cacheBlockSize" : 128,

            "maxPrefillBatchSize" : 8,
            "maxPrefillTokens" : 2048,
            "prefillTimeMsPerReq" : 150,
            "prefillPolicyType" : 0,

            "decodeTimeMsPerReq" : 50,
            "decodePolicyType" : 0,

            "maxBatchSize" : 8,
            "maxIterTimes" : 1024,
            "maxPreemptCount" : 0,
            "supportSelectBatch" : false,
            "maxQueueDelayMicroseconds" : 5000
        }
    }
}

拉起服务化

# 以下命令需在所有机器上同时执行
# 解决权重加载过慢问题
export OMP_NUM_THREADS=1
# 设置显存比
export NPU_MEMORY_FRACTION=0.95
# 拉起服务化
cd /usr/local/Ascend/mindie/latest/mindie-service/
./bin/mindieservice_daemon

执行命令后，首先会打印本次启动所用的所有参数，然后直到出现以下输出：

Daemon start success!

则认为服务成功启动。

另起客户端

进入相同容器，向服务端发送请求。

更多信息可参考官网信息：MindIE Service。

精度化测试样例

需要开启确定性计算环境变量。

export LCCL_DETERMINISTIC=1
export HCCL_DETERMINISTIC=true
export ATB_MATMUL_SHUFFLE_K_ENABLE=0

-并发数需设置为1，确保模型推理时是1batch输入，这样才可以和纯模型比对精度。 -使用MMLU比对精度时，MaxOutputLen应该设为20，MindIE Server的config.json文件中maxSeqLen需要设置为3600，该数据集中有约为1.4w条数据，推理耗时会比较长。

benchmark \
--DatasetPath "/数据集路径/MMLU" \
--DatasetType mmlu \
--ModelName DeepSeek-V3 \
--ModelPath "/模型权重路径/DeepSeek-V3" \
--TestType client \
--Http https://{ipAddress}:{port} \
--ManagementHttp https://{managementIpAddress}:{managementPort} \
--Concurrency 1 \
--MaxOutputLen 20 \
--TaskKind stream \
--Tokenizer True \
--TestAccuracy True

ModelName，ModelPath需要与mindie-service里的config.json里的一致，master_ip设置为主节点机器的ip。样例仅供参考，请根据实际情况调整参数。

常见问题

服务化常见问题

若出现out of memory报错，可适当调高NPU_MEMORY_FRACTION环境变量（默认值为0.8），适当调低服务化配置文件config.json中maxSeqLen、maxInputTokenLen、maxPrefillBatchSize、maxPrefillTokens、maxBatchSize等参数。

export NPU_MEMORY_FRACTION=0.96

若出现hccl通信超时报错，可配置以下环境变量。

export HCCL_CONNECT_TIMEOUT=7200 # 该环境变量需要配置为整数，取值范围[120,7200]，单位s
export HCCL_EXEC_TIMEOUT=0

若出现AttributeError：'IbisTokenizer' object has no atrribute 'cache_path'。

Step1: 进入环境终端后执行。

pip show mies_tokenizer

默认出现类似如下结果，重点查看Location

Name: mies_tokenizer
Version: 0.0.1
Summary: ibis tokenizer
Home-page:
Author:
Author-email:
License:
Location: /usr/local/python3.10.13/lib/python3.10/site-packages
Requires:
Required-by:

Step2: 打开Location路径下的./mies_tokenizer/tokenizer.py文件。

vim /usr/local/python3.10.13/lib/python3.10/site-packages/mies_tokenizer/tokenizer.py

Step3: 对以下两个函数代码进行修改。

def __del__(self):
-       dir_path = file_utils.standardize_path(self.cache_path)
+       cache_path = getattr(self, 'cache_path', None)
+       if cache_path is None:
+           return
+       dir_path = file_utils.standardize_path(cache_path)
        file_utils.check_path_permission(dir_path)
        all_request = os.listdir(dir_path)

以及

def _get_cache_base_path(child_dir_name):
        dir_path = os.getenv("LOCAL_CACHE_DIR", None)
        if dir_path is None:
           dir_path = os.path.expanduser("~/mindie/cache")
-          if not os.path.exists(dir_path):
-              os.makedirs(dir_path)
+          os.makedirs(dir_path, exist_ok=True)
           os.chmod(dir_path, 0o750)

若出现UnicodeEncodeError: 'ascii' codec can't encode character \uff5c in position 301:ordinal not in range(128)。

这是因为由于系统在写入或打印日志ASCII编码deepseek的词表失败，导致报错，不影响服务化正常运行。如果需要规避，需要/usr/local/Ascend/atb-models/atb_llm/runner/model_runner.py的第145行注释掉：print_log(rank, logger.info, f'init tokenizer done: {self.tokenizer}')。

从节点无法和主节点建立rpc通信

若出现多级部署从节点无法和主节点建立rpc通信问题，子节点报RPC问题，可能原因：防火墙拦截，排查方法：使用指令查看防火墙状态，如果开启防火墙，每台机器都需要关闭防火墙；

查看防火墙状态：

sudo systemctl status firewalld

临时关闭防火墙，该操作存在安全隐患，请谨慎操作，该命令适用于linux系统，其它系统需要根据实际情况修改：

sudo systemctl stop firewalld

参考链接：https://www.hiascend.com/document/caselibrary/detail/topic_0000002193154350

无进程内存残留

如果卡上有内存残留，且有进程，可以尝试以下指令：

pkill -9 -f 'mind|python'

如果卡上有内存残留，但无进程，可以尝试以下指令：

npu-smi set -t reset -i 0 -c 0 #重启npu卡
npu-smi info -t health -i <card_idx> -c 0 #查询npu告警

例：

npu-smi set -t reset -i 0 -c 0 #重启npu卡0
npu-smi info -t health -i 2 -c 0 #查询npu卡2告警

如果卡上有进程残留，无进程，且重启NPU卡无法消除残留内存，请尝试reboot重启机器

日志收集

遇到推理报错时，请打开日志环境变量，收集日志信息。

算子库日志|默认输出路径为"~/atb/log"

export ASDOPS_LOG_LEVEL = INFO
export ASDOPS_LOG_TO_FILE = 1

加速库日志|默认输出路径为"~/mindie/log/debug"

export ATB_LOG_LEVEL = INFO
export ATB_LOG_TO_FILE = 1

MindIE Service日志|默认输出路径为"~/mindie/log/debug"

export MINDIE_LOG_TO_FILE = 1
export MINDIE_LOG_TO_LEVEL = debug

CANN日志收集|默认输出路径为"~/ascend"

export ASCEND_GLOBAL_LOG_TO_LEVEL = 1

多机无法拉起DeepSeek-R1模型推理，HCCL报错

# 检查NPU底层tls校验行为一致性，建议统一全部设置为0，避免hccl报错
for i in {0..7}; do hccn_tool -i $i -tls -g ; done | grep switch

# NPU底层tls校验行为置0操作，建议统一全部设置为0，避免hccl报错
for i in {0..7};do hccn_tool -i $i -tls -s enable 0;done

权重路径权限问题

注意保证权重路径是可用的，执行以下命令修改权限，注意是整个父级目录的权限：

chown -R HwHiAiUser:HwHiAiUser {/path-to-weights}
chmod -R 750 {/path-to-weights}

更多故障案例，请参考链接：https://www.hiascend.com/document/caselibrary

声明

本代码仓提到的数据集和模型仅作为示例，这些数据集和模型仅供您用于非商业目的，如您使用这些数据集来完成示例，请您特别注意应遵守对应数据集合模型的License，如您因使用数据集或者模型而产生侵权纠纷，华为不承担任何责任。
如您在使用本地代码的过程中，发现任何问题（包括但不限于功能问题、合规问题），请在本代码仓提交issue，我们将及时审视并解答。

使用模型资源和服务前，请您仔细阅读并理解透彻《昇腾深度学习模型许可协议 3.0》

DeepSeek-V3

DeepSeek-V3

硬件要求

权重

FP8原始权重下载

权重转换（Convert FP8 weights to BF16）

BF16原始权重下载

W8A8量化权重生成(BF16 to INT8)

昇腾原生量化W8A8权重下载(动态量化)

推理前置准备

推理前置准备

加载镜像

容器启动

启动容器

进入容器

设置基础环境变量

开启通信环境变量

纯模型推理

精度测试

性能测试

服务化推理

配置服务化环境变量

修改服务化参数

拉起服务化

另起客户端

精度化测试样例

常见问题

服务化常见问题

权重路径权限问题

更多故障案例，请参考链接：https://www.hiascend.com/document/caselibrary

声明

关于昇腾

新闻与活动

交流与资讯

支持与服务

开源社区

About Ascend

Communication and Information

Links