RLHF vs DPO[2]

u1q5ufnk.bmp

直接偏好优化(DPO)已成为将大型语言模型(LLMs)与人类或AI偏好对齐的有前景的替代方法。与传统基于强化学习的对齐方法不同,DPO将对齐问题重新定义为一个简单的损失函数,可以直接在偏好数据集上进行优化。

【DPO】DPO(Direct Preference Optimization)[1]

dpo1.png

【DPO】DPO训练全景图[1]

dpo2.png

算法**[3][4]**