论文

论文地址

MEDUSA: Simple LLM Inference Acceleration Framework with Multiple Decoding Heads

Princeton University 2401

开源地址

 [Medusa](<https://github.com/FasterDecoding/Medusa>)

Project page Medusa: Simple Framework for Accelerating LLM Generation with Multiple Decoding Heads

<aside> 💡

多个 Medusa Head

</aside>

Method[1]

将 Blockwise Parallel Decoding 和 SpecInfer 的工作相结合，不过对 Blockwise Parallel Decoding 中的多 head 进行相应的升级，由原来的一个 head 生成一个 Token 变成一个 head 生成多个候选 Token（这是因为作者观察到，虽然在预测 next next Token 的时候 top1 的准确率可能只有 60%，但是 top5 有可能超过 80%），然后根据这些 head 生成 Token 的笛卡尔积来构建出多个 Token 序列，之后的步骤就可以采用 SpecInfer 中的 Token 树验证机制来验证。如下图所示，Medusa 也是在 LLM 的 Last Hidden 之后保留原始的 LM Head，然后额外加多个 Medusa Head，获得多个候选的 Token 序列，然后经过 Single step prediction 即可完成验证。

Medusa 对大模型的几个头进行微调，专门用于生成后续的草稿 token。