原理 [0]

损失函数

$$ \begin{aligned}& \min _w \sum_x\left\|f_w(x)-y\right\|^2 \end{aligned} $$

梯度下降

$$ \begin{aligned} \\& w^{+}=w-\eta \cdot \frac{\partial E}{\partial w}\end{aligned} $$

$\eta$ 是学习率， $\frac{\partial E}{\partial w}$是梯度

模型的训练 [1]

前向/反向传播

模型的训练过程，其包括前向传播（Forward Pass），**反向传播（Backward Pass）以及权重更新（Weight Update）**过程。这里以序列模型为例，也就是 y = LayerN(LayerN-1(...(Layer1(x))))。

如下图所示为其中关键的 Forward 和 Backward，每个模块从左侧输入，并将其结果从右侧输出。其中 Cache 用于存储中间结果，也就是 Activation；图中的 wrt 表示 with respect to，比如 ∇Loss wrt Weights of LayerN，也就是 Layer N 中关于 Weight 的 ∇Loss。

Forward：LayerN 的 Forward 需要输入
- LayerN-1 的输出（Activation）
- LayerN 的 Weight
Backward：LayerN 的 Backward 需要输入
- LayerN-1 的输出（Activation），也就是 LayerN 的输入。
- LayerN 的 Weight
- LayerN 层输出 Activation 对应的 Error