Bootstrap

pytorch中的zero_grad()执行时机

在反向传播(backward())前执行即可

  1. zero_grad() 用以清除优化器的梯度
  2. 对张量执行backward(),以计算累积梯度
  3. 执行optimizer.step(),优化器使用梯度更新参数
  4. 当优化器更新完成,梯度即失去意义,即可以清除,为保证下一次梯度开始累积时为0,则在下一次执行反向传播前清除即可
;