单机多卡训练报错“Unsupported data type for HCCL process group”
2024/02/21
288
问题信息
问题来源 | 产品大类 | 产品子类 | 关键字 |
---|---|---|---|
官方 | 模型训练 | PyTorch | -- |
问题现象描述
单机多卡训练报如下错误:
报错组件版本:torch_npu 1.8.1.post1-20230220
原因分析
buffers里面有uint8类型的tensor,不支持通信。
解决措施
在DistributedDataParallel之前增加如下代码:
for n, m in model.named_buffers(): if m.dtype == torch.uint8: m.data = m.data.int()

目前只有规避方法,后续版本可能会解决。
本页内容