$$ \begin{aligned}& \min _w \sum_x\left\|f_w(x)-y\right\|^2 \end{aligned} $$
$$ \begin{aligned} \\& w^{+}=w-\eta \cdot \frac{\partial E}{\partial w}\end{aligned} $$
$\eta$ 是学习率, $\frac{\partial E}{\partial w}$是梯度
模型的训练过程,其包括前向传播(Forward Pass),**反向传播(Backward Pass)以及权重更新(Weight Update)**过程。这里以序列模型为例,也就是 y = LayerN(LayerN-1(...(Layer1(x))))。
如下图所示为其中关键的 Forward 和 Backward,每个模块从左侧输入,并将其结果从右侧输出。其中 Cache 用于存储中间结果,也就是 Activation;图中的 wrt 表示 with respect to,比如 ∇Loss wrt Weights of LayerN,也就是 Layer N 中关于 Weight 的 ∇Loss。
