测试时计算:Test-time Compute

测试时计算的类别

大致而言,这些技术可以分为两大类:

1. Search against Verifiers:利用验证器进行搜索(采样生成多个答案并挑选最佳答案)

2. Modifying Proposal Distribution:修改提议分布(训练过的“思考”过程)

s9nns2vf.bmp

针对验证者的搜索是以输出为中心的,而修改提议分布是以输入为中心的。

有两种类型的验证器(其实都是需要打分奖励的)

ORM只判断结果,并不关心底层过程:

w08f5tjr.bmp

相反,过程奖励模型 PRM 不仅评判结果,还会考量生成结果的过程(即“推理”过程):

el19icov.bmp