+ RLVR | Notion

演讲者Nathan Lambert介绍了强化学习与人类反馈（RLHF）的历史及其作为现代大型语言模型（LLM）训练基础的重要性。他重点阐述了基于可验证奖励的强化学习（RLVR）这一新兴方法，该方法使用客观的成功指标（如数学答案的正确性）作为奖励信号，以优化LLM在特定任务上的性能。讨论还涉及了后训练（post-training）的不同阶段，包括监督微调和偏好调整，并探讨了RLVR在提升LLM能力和效率方面的潜力，以及当前的研究方向，例如算法优化和跨领域应用

幻灯片：https://docs.google.com/presentation/d/13dBH2cYoJI4hCOHX5r5razq4HHdQVRIWOOIe08PTmPM/edit?usp=sharing

00:00 从RLHF到RLVR的介绍 07:51 训练后回顾 13:08 可验证奖励的强化学习介绍 20:22 RLVR实验 41:27 讨论 44:00 结论

Screenshot_20251022_043915_tv.danmaku.bili.jpg