RM

如图所示，其中，yw和 yl是针对同一个Prompt（图中的x）生成的两个回答，且 yw 优于 yl ，这包含了人类反馈（偏好）信息。训练步骤如下：

（1）计算奖励分数：奖励模型分别对两个回答进行推理，得到两个奖励评分，即奖励模型恰好对优质回答yw 的评分更高，这与人类反馈大体一致。
（2）计算Loss：根据两个奖励分数的差异，代入式（7.2）计算Loss。
（3）梯度更新：通过反向传播计算梯度，并更新奖励模型的参数。
（4）重复迭代多次：读取下一批偏好样本，按照上面的流程，重复迭代。随着参数逐步更新，奖励模型在所有偏好数据上的评分逐渐与人类的偏好趋于一致。

ppo RM.png

目标

to mimic human preference

Loss

RewardModel 要训练或者学习的模型就是一个打分或者说回归模型$（r_\theta(x,y)：logits）$

这个回归或者打分模型，可以在实现上就是一个二分类模型，
- 比如序列分类模型（AutoModelForSequenceClassification），输出为一个scalar，
越大说明得分越高（score，或者叫 rank），
还可以通过 $sigmoid$ 函数映射到 0-1 之间

$\begin{cases} &L=-\log(\sigma(r_\theta(x,y_{\text{chosen}}) - r_\theta(x,y_{\text{rejected}})))\\ &L=-\log(\sigma(r_\theta(x,y_{w}) - r_\theta(x,y_{l}))) \end{cases}$