交叉熵与 KL散度的关系[1]

$$ \begin{aligned} \mathrm{D}{\mathrm{KL}}(\mathrm{p} \| \mathrm{q}) & =-\mathrm{H}(\mathrm{p})+\mathrm{H}(\mathrm{p}, \mathrm{q}) \\& =\sum{\mathrm{i}=1}^{\mathrm{n}} \mathrm{p}\left(\mathrm{x}{\mathrm{i}}\right) \log \mathrm{p}\left(\mathrm{x}{\mathrm{i}}\right)-\sum_{\mathrm{i}=1}^{\mathrm{n}} \mathrm{p}\left(\mathrm{x}{\mathrm{i}}\right) \log \mathrm{q}\left(\mathrm{x}{\mathrm{i}}\right) \\& =-\mathrm{H}(\mathrm{p}(\mathrm{x}))+\left[-\sum_{\mathrm{i}=1}^{\mathrm{n}} \mathrm{p}\left(\mathrm{x}{\mathrm{i}}\right) \log \mathrm{q}\left(\mathrm{x}{\mathrm{i}}\right)\right] \\& =-\mathrm{H}(\mathrm{p})+\mathrm{H}(\mathrm{p}, \mathrm{q}) \end{aligned} $$

<aside> 💡

KL散度来衡量这两个概率分布之间的差异[3]

KL散度 = 交叉熵 - 信息熵[3]

</aside>

交叉熵 [2]

$$ \text { CrossEntroyLoss }=-\sum_{i=1}^N y_i \cdot \log \left(\hat{y}_i\right) $$

$N$ ：类别数

$y_i$ ：真实的标签（用 one-hot 编码表示，只有目标类别对应的位置为 1，其他位置为 0）。

$\hat{y}_i$ ：模型的预测概率，即 softmax 的输出值。