下载
中文
注册

AllReduce

功能说明

集合通信算子AllReduce的任务下发接口,返回该任务的标识handleId给用户。AllReduce功能为:将通信域内所有节点的同名张量进行reduce操作后,再把结果发送到所有节点的输出buffer。

函数原型

1
2
template <bool commit = false>
__aicore__ inline HcclHandle AllReduce(GM_ADDR sendBuf, GM_ADDR recvBuf, uint64_t count, HcclDataType dataType, HcclReduceOp op, uint8_t repeat = 1)

参数说明

表1 模板参数说明

参数名

输入/输出

描述

commit

输入

bool类型。参数取值如下:

  • true:在调用Prepare接口时,Commit同步通知服务端可以执行该通信任务。
  • false:在调用Prepare接口时,不通知服务端执行该通信任务。
表2 接口参数说明

参数名

输入/输出

描述

sendBuf

输入

源数据buffer地址。

recvBuf

输出

目的数据buffer地址,集合通信结果输出至此buffer中。

count

输入

参与AllReduce操作的数据个数,比如只有一个int32数据参与,则count=1。

dataType

输入

AllReduce操作的数据类型,HcclDataType详细可参考表3

op

输入

Reduce的操作类型,目前支持sum操作类型,HcclReduceOp详细可参考表4

repeat

输入

本通信任务需要执行的次数,默认为1。当repeat>1时,偏移数据在服务端由count*sizeof(dataType)自动算出,只能用于数据内存连续场景。注意,repeat必须大于等于1。

图1 AllReduce通信示例

返回值

返回该任务的标识handleId,handleId大于等于0。调用失败时,返回 -1。

支持的型号

Atlas A2训练系列产品/Atlas 800I A2推理产品

注意事项

  • 调用本接口前确保已调用过Init接口
  • 该接口只能在AI Cube核或者AI Vector核两者之一上调用
  • 该接口只在0核上工作

调用示例

// 假设已构造好HcclCombineOpParam对象hcclCombineOpParam,以及recvBuf和sendBuf
Hccl hccl;
hccl.Init(reinterpret_cast<GM_ADDR>(&hcclCombineOpParam));
if (g_coreType == AIC) {
    HcclHandle handleId = hccl.AllReduce(sendBuf, recvBuf, 100, HcclDataType::HCCL_DATA_TYPE_INT8, HcclReduceOp::HCCL_REDUCE_SUM);
}