论文地址
[Llumnix: Dynamic Scheduling for Large Language Model Serving](<https://arxiv.org/pdf/2406.03243>)
开源地址
为此,我们推出了Llumnix——一款创新的LLM服务系统。它通过跨多个模型实例的动态重新调度,灵活应对请求的多样性和不可预测性。这一机制类似于现代操作系统中CPU核心的上下文切换,通过重新分配请求,优化负载均衡,增强隔离性,减少资源碎片,并精确区分请求优先级和服务水平目标。Llumnix还采用了高效可扩展的实时迁移技术,无缝迁移请求及其内存状态,并在动态调度策略中巧妙整合多种重新调度场景,充分发挥这一技术的优势。
