梯度累加场景是每计算一个batch的梯度后,进行梯度的累加而不是清零,当累加到一定次数再更新参数、清零梯度的场景。
在构建神经网络前,我们需要torch_npu中导入AMP模块。
import time import torch import torch.nn as nn import torch_npu from torch_npu.npu import amp # 导入AMP模块 from torch.utils.data import Dataset, DataLoader import torchvision device = torch.device('npu:0') # 用户请自行定义训练设备 ...... # 如样例代码所示,定义一个简单的神经网络
这一部分我们从torchvision中获取训练数据集,设置训练相关的参数batch_size、epochs,并在模型、优化器定义之后,定义AMP功能中的GradScaler。
train_data = torchvision.datasets.MNIST( root='mnist', download=True, train=True, transform=torchvision.transforms.ToTensor() ) batch_size = 64 model = CNN().to(device) train_dataloader = DataLoader(train_data, batch_size=batch_size) # 定义DataLoader loss_func = nn.CrossEntropyLoss().to(device) # 定义损失函数 optimizer = torch.optim.SGD(model.parameters(), lr=0.1) # 定义优化器 scaler = amp.GradScaler() # 在模型、优化器定义之后,定义GradScaler epochs = 10
iters_to_accumulate = 8 # 设置梯度累加多少个step后更新参数、清零。用户请根据自己的模型实际情况设置。 for epo in range(epochs): i = 0 for imgs, labels in train_dataloader: imgs = imgs.to(device) labels = labels.to(device) with amp.autocast(): outputs = model(imgs) # 前向计算 loss = loss_func(outputs, labels) # 损失函数计算 loss = loss / iters_to_accumulate # 进行反向传播前后的loss缩放、参数更新 scaler.scale(loss).backward() # loss缩放并反向转播 if (i + 1) % iters_to_accumulate == 0: # 在达到设置好的step数之后更新参数、清零梯度 scaler.step(optimizer) # 更新参数(自动unscaling) scaler.update() # 基于动态Loss Scale更新loss_scaling系数 optimizer.zero_grad() # 梯度清零 i += 1 #step计数