论文

<aside> 💡

多个 Medusa Head

</aside>

Method[1]

将 Blockwise Parallel Decoding 和 SpecInfer 的工作相结合,不过对 Blockwise Parallel Decoding 中的多 head 进行相应的升级,由原来的一个 head 生成一个 Token 变成一个 head 生成多个候选 Token(这是因为作者观察到,虽然在预测 next next Token 的时候 top1 的准确率可能只有 60%,但是 top5 有可能超过 80%),然后根据这些 head 生成 Token 的笛卡尔积来构建出多个 Token 序列,之后的步骤就可以采用 SpecInfer 中的 Token 树验证机制来验证。如下图所示,Medusa 也是在 LLM 的 Last Hidden 之后保留原始的 LM Head,然后额外加多个 Medusa Head,获得多个候选的 Token 序列,然后经过 Single step prediction 即可完成验证

8uvysgww.bmp