背景[1]

影响神经网络优化的主要超参数

批大小 $K$
学习率 $\alpha$
梯度计算 $g_t$

常用的优化算法

批大小调整：小批量随机梯度下降
学习率调整：
- 学习率衰减：分段常数衰减、余弦衰减
- 学习率预热：逐渐预热
- 自适应学习率：AdaGrad、RMSprop

梯度下降

小批量梯度下降
随机梯度下降
Adagrad、RMSprop
动量法
```
梯度估计修正
```

Adam

综合自适应学习率和梯度估计修正