下载
中文
注册
单机多卡训练报错“Unsupported data type for HCCL process group”

单机多卡训练报错“Unsupported data type for HCCL process group”

2024/02/21

288

暂无评分
我要评分

问题信息

问题来源产品大类产品子类关键字
官方模型训练PyTorch--

问题现象描述

单机多卡训练报如下错误:

报错组件版本:torch_npu 1.8.1.post1-20230220

原因分析

buffers里面有uint8类型的tensor,不支持通信。

解决措施

在DistributedDataParallel之前增加如下代码:

for n, m in model.named_buffers():
if m.dtype == torch.uint8:
m.data = m.data.int()

目前只有规避方法,后续版本可能会解决。

本页内容