<aside> 💡

PD 分离;

分布式KV Cache;

</aside>

论文

1. 背景

1.1 Throughput? Goodput !

而 LLM 服务主要包含以下两类 SLO:

lzu0e7pw.bmp