RLHF vs DPO[2]

直接偏好优化（DPO）已成为将大型语言模型（LLMs）与人类或AI偏好对齐的有前景的替代方法。与传统基于强化学习的对齐方法不同，DPO将对齐问题重新定义为一个简单的损失函数，可以直接在偏好数据集上进行优化。

【DPO】DPO（Direct Preference Optimization）[1]