测试时计算：Test-time Compute

测试时计算的类别

大致而言，这些技术可以分为两大类：

1. Search against Verifiers：利用验证器进行搜索（采样生成多个答案并挑选最佳答案）

2. Modifying Proposal Distribution：修改提议分布（训练过的“思考”过程）

针对验证者的搜索是以输出为中心的，而修改提议分布是以输入为中心的。

有两种类型的验证器（其实都是需要打分奖励的）

结果奖励模型（ORM），
流程奖励模型（PRM），

ORM只判断结果，并不关心底层过程：

相反，过程奖励模型 PRM 不仅评判结果，还会考量生成结果的过程（即“推理”过程）：