RM

如图所示,其中,yw和 yl是针对同一个Prompt(图中的x)生成的两个回答,且 yw 优于 yl ,这包含了人类反馈(偏好)信息。训练步骤如下:

ppo RM.png

目标

to mimic human preference

Loss

RewardModel 要训练或者学习的模型就是一个打分或者说回归模型$(r_\theta(x,y):logits)$

$\begin{cases} &L=-\log(\sigma(r_\theta(x,y_{\text{chosen}}) - r_\theta(x,y_{\text{rejected}})))\\ &L=-\log(\sigma(r_\theta(x,y_{w}) - r_\theta(x,y_{l}))) \end{cases}$