aclnnApplyFusedEmaAdam-NN算子接口-算子加速库接口-CANN社区版8.0.0.alpha002开发文档-昇腾社区

[object Object][object Object]

Atlas A2训练系列产品/Atlas 800I A2推理产品

[object Object]

每个算子分为，必须先调用 “aclnnApplyFusedEmaAdamGetWorkspaceSize” 接口获取入参并根据计算流程计算所需workspace大小以及包含了算子计算流程的执行器，再调用 “aclnnApplyFusedEmaAdam” 接口执行计算。

[object Object]
[object Object]

[object Object]

算子功能：实现FusedEmaAdam融合优化器功能。
计算公式： $(correction_{\beta_1},correction_{\beta_2},)=\begin{cases} (1,1),&biasCorrection=False\\ (1-\beta_1^{step},1-\beta_2^{step}),&biasCorrection=True \end{cases}$ $grad=\begin{cases} grad+weightDecay*var,&mode=0\\ grad,&mode=1 \end{cases}$ $m_{out}=\beta_1*m+(1-\beta_1)*grad$ $v_{out}=\beta_2*v+(1-\beta_2)*grad^2$ $m_{next}=m_{out}/correction_{\beta_1}$ $v_{next}=v_{out}/correction_{\beta_2}$ $denom=\sqrt{v_{next}}+eps$ $update=\begin{cases} m_{next}/denom,&mode=0\\ m_{next}/denom+weightDecay*var,&mode=1 \end{cases}$ $var_{out}=var-lr*update$ $s_{out}=emaDecay*s+(1-emaDecay)*var_{out}$

[object Object]

参数说明：
- grad（aclTensor*，计算输入）：待更新参数对应的梯度，对应公式中的[object Object]，Device侧的aclTensor，数据类型支持BFLOAT16，FLOAT16，FLOAT32，支持ND。
- varRef（aclTensor*，计算输入/输出）：待更新参数，对应公式中的[object Object]，Device侧的aclTensor, 数据类型支持BFLOAT16，FLOAT16，FLOAT32，shape和数据类型需要和grad保持一致，支持ND。
- mRef（aclTensor*，计算输入/输出）：待更新参数对应的一阶动量，对应公式中的[object Object]，Device侧的aclTensor, 数据类型支持BFLOAT16，FLOAT16，FLOAT32，shape和数据类型需要和grad保持一致，支持ND。
- vRef（aclTensor*，计算输入/输出）：待更新参数对应的二阶动量，对应公式中的[object Object]，Device侧的aclTensor, 数据类型支持BFLOAT16，FLOAT16，FLOAT32，shape和数据类型需要和grad保持一致，支持ND。
- sRef（aclTensor*，计算输入/输出）：待更新参数对应的EMA权重，对应公式中的[object Object]，Device侧的aclTensor, 数据类型支持BFLOAT16，FLOAT16，FLOAT32，shape和数据类型需要和grad保持一致，支持ND。
- step（aclTensor*，计算输入）：优化器当前的更新次数，对应公式中的[object Object]，Device侧的aclTensor, 数据类型支持INT64，支持ND。
- lr（double，计算输入）：学习率，对应公式中的[object Object]。
- emaDecay（double，计算输入）：指数移动平均（EMA）的衰减速率，对应公式中的[object Object]。
- beta1（double，计算输入）：计算一阶动量的系数，对应公式中的 $\beta_1$ 。
- beta2（double，计算输入）：计算二阶动量的系数，对应公式中的 $\beta_2$ 。
- eps（double，计算输入）：加到分母上的项，用于数值稳定性，对应公式中的[object Object]。
- mode（int64_t，计算输入）：控制应用L2正则化还是权重衰减，对应公式中的[object Object]，1为adamw，0为L2。
- biasCorrection（bool，计算输入）：控制是否进行偏差校正，对应公式中的[object Object]，true表示进行校正，false表示不做校正。
- weightDecay（double，计算输入）：权重衰减，对应公式中的[object Object]。
- workspaceSize（uint64_t*，出参）：返回需要在Device侧申请的workspace大小。
- executor（aclOpExecutor**，出参）：返回op执行器，包含了算子计算流程。
返回值：

返回aclnnStatus状态码，具体参见。

[object Object]

[object Object]

参数说明：
- workspace（void*，入参）：在Device侧申请的workspace内存地址。
- workspaceSize（uint64_t，入参）：在Device侧申请的workspace大小，由第一段接口aclnnApplyFusedEmaAdamGetWorkspaceSize获取。
- executor（aclOpExecutor*，入参）：op执行器，包含了算子计算流程。
- stream（aclrtStream，入参）：指定执行任务的AscendCL stream流。
返回值：

返回aclnnStatus状态码，具体参见。

[object Object]

输入grad、var、m、v、s的数据类型和shape需要保持一致。

[object Object]

示例代码如下，仅供参考，具体编译和执行过程请参考。

[object Object]