
$$ \begin{aligned} \mathrm{D}{\mathrm{KL}}(\mathrm{p} \| \mathrm{q}) & =-\mathrm{H}(\mathrm{p})+\mathrm{H}(\mathrm{p}, \mathrm{q}) \\& =\sum{\mathrm{i}=1}^{\mathrm{n}} \mathrm{p}\left(\mathrm{x}{\mathrm{i}}\right) \log \mathrm{p}\left(\mathrm{x}{\mathrm{i}}\right)-\sum_{\mathrm{i}=1}^{\mathrm{n}} \mathrm{p}\left(\mathrm{x}{\mathrm{i}}\right) \log \mathrm{q}\left(\mathrm{x}{\mathrm{i}}\right) \\& =-\mathrm{H}(\mathrm{p}(\mathrm{x}))+\left[-\sum_{\mathrm{i}=1}^{\mathrm{n}} \mathrm{p}\left(\mathrm{x}{\mathrm{i}}\right) \log \mathrm{q}\left(\mathrm{x}{\mathrm{i}}\right)\right] \\& =-\mathrm{H}(\mathrm{p})+\mathrm{H}(\mathrm{p}, \mathrm{q}) \end{aligned} $$

<aside> 💡
KL散度来衡量这两个概率分布之间的差异[3]
KL散度 = 交叉熵 - 信息熵[3]
</aside>
$$ \text { CrossEntroyLoss }=-\sum_{i=1}^N y_i \cdot \log \left(\hat{y}_i\right) $$
$N$ :类别数
$y_i$ :真实的标签(用 one-hot 编码表示,只有目标类别对应的位置为 1,其他位置为 0)。
$\hat{y}_i$ :模型的预测概率,即 softmax 的输出值。