演讲者Nathan Lambert介绍了强化学习与人类反馈(RLHF)的历史及其作为现代大型语言模型(LLM)训练基础的重要性。他重点阐述了基于可验证奖励的强化学习(RLVR)这一新兴方法,该方法使用客观的成功指标(如数学答案的正确性)作为奖励信号,以优化LLM在特定任务上的性能。讨论还涉及了后训练(post-training)的不同阶段,包括监督微调和偏好调整,并探讨了RLVR在提升LLM能力和效率方面的潜力,以及当前的研究方向,例如算法优化和跨领域应用

幻灯片:https://docs.google.com/presentation/d/13dBH2cYoJI4hCOHX5r5razq4HHdQVRIWOOIe08PTmPM/edit?usp=sharing

00:00 从RLHF到RLVR的介绍 07:51 训练后回顾 13:08 可验证奖励的强化学习介绍 20:22 RLVR实验 41:27 讨论 44:00 结论

Screenshot_20251022_043915_tv.danmaku.bili.jpg

Screenshot_20251022_044003_tv.danmaku.bili.jpg

Screenshot_20251022_044126_tv.danmaku.bili.jpg

Screenshot_20251022_044052_tv.danmaku.bili.jpg

Screenshot_20251022_044226_tv.danmaku.bili.jpg

Screenshot_20251022_044338_tv.danmaku.bili.jpg

Screenshot_20251022_044716_tv.danmaku.bili.jpg

Screenshot_20251022_045545_tv.danmaku.bili.jpg

Screenshot_20251022_045835_tv.danmaku.bili.jpg

Screenshot_20251022_045915_tv.danmaku.bili.jpg

Screenshot_20251022_050114_tv.danmaku.bili.jpg

Screenshot_20251023_045209_tv.danmaku.bili.jpg