直接偏好优化(DPO)已成为将大型语言模型(LLMs)与人类或AI偏好对齐的有前景的替代方法。与传统基于强化学习的对齐方法不同,DPO将对齐问题重新定义为一个简单的损失函数,可以直接在偏好数据集上进行优化。