论文地址
MEDUSA: Simple LLM Inference Acceleration Framework with Multiple Decoding Heads
Princeton University 2401
开源地址
[Medusa](<https://github.com/FasterDecoding/Medusa>)
Project page Medusa: Simple Framework for Accelerating LLM Generation with Multiple Decoding Heads
<aside> 💡
多个 Medusa Head
</aside>
将 Blockwise Parallel Decoding 和 SpecInfer 的工作相结合,不过对 Blockwise Parallel Decoding 中的多 head 进行相应的升级,由原来的一个 head 生成一个 Token 变成一个 head 生成多个候选 Token(这是因为作者观察到,虽然在预测 next next Token 的时候 top1 的准确率可能只有 60%,但是 top5 有可能超过 80%),然后根据这些 head 生成 Token 的笛卡尔积来构建出多个 Token 序列,之后的步骤就可以采用 SpecInfer 中的 Token 树验证机制来验证。如下图所示,Medusa 也是在 LLM 的 Last Hidden 之后保留原始的 LM Head,然后额外加多个 Medusa Head,获得多个候选的 Token 序列,然后经过 Single step prediction 即可完成验证。
