大致而言,这些技术可以分为两大类:
1. Search against Verifiers:利用验证器进行搜索(采样生成多个答案并挑选最佳答案)
2. Modifying Proposal Distribution:修改提议分布(训练过的“思考”过程)
针对验证者的搜索是以输出为中心的,而修改提议分布是以输入为中心的。
有两种类型的验证器(其实都是需要打分奖励的)
ORM只判断结果,并不关心底层过程:
相反,过程奖励模型 PRM 不仅评判结果,还会考量生成结果的过程(即“推理”过程):