torch_npu.optim.NpuFusedBertAdam(params, lr=required, warmup=-1, t_total=-1, schedule='warmup_linear', b1=0.9, b2=0.99, e=1e-6, weight_decay=0.01, max_grad_norm=-1)

通过张量融合实现的 BertAdam 算法。

参数解释：
- params：模型参数或模型参数组
- lr：学习率（默认值：1e-3）
- warmup：t_total的warmup比例（默认值：-1，表示不进行warmup）
- t_total：学习率调整的步数（默认值：-1，表示固定学习率）
- schedule：学习率warmup策略（默认值：'warmup_linear'）
- b1：Adams b1（默认值：0.9）
- b2：Adams b2（默认值：0.99）
- e：Adams epsilon（默认值：1e-6）
- weight_decay：权重衰减（默认值：0.01）
- max_grad_norm：最大梯度正则（默认值：1.0，-1表示不做裁剪）
约束条件：
无

示例：

opt = torch_npu.optim.NpuFusedBertAdam(model.parameters(), lr=0.1, weight_decay=0.01, max_grad_norm=1.0)