背景[1]
影响神经网络优化的主要
超参数
批大小
$K$
学习率
$\alpha$
梯度计算
$g_t$
常用的优化算法
批大小调整:小批量随机梯度下降
学习率调整:
学习率衰减
:分段常数衰减、余弦衰减
学习率预热
:逐渐预热
自适应学习率:AdaGrad、RMSprop
梯度下降
小批量梯度下降
随机梯度下降
Adagrad、RMSprop
动量法
梯度估计修正
Adam
综合自适应学习率和梯度估计修正