论文

论文地址

 [Llumnix: Dynamic Scheduling for Large Language Model Serving](<https://arxiv.org/pdf/2406.03243>)

开源地址

 https://github.com/AlibabaPAI/llumnix git

https://deepwiki.com/AlibabaPAI/llumnix

摘要[2]

为此，我们推出了Llumnix——一款创新的LLM服务系统。它通过跨多个模型实例的动态重新调度，灵活应对请求的多样性和不可预测性。这一机制类似于现代操作系统中CPU核心的上下文切换，通过重新分配请求，优化负载均衡，增强隔离性，减少资源碎片，并精确区分请求优先级和服务水平目标。Llumnix还采用了高效可扩展的实时迁移技术，无缝迁移请求及其内存状态，并在动态调度策略中巧妙整合多种重新调度场景，充分发挥这一技术的优势。

论文

摘要[2]

动机[2]

相关工作[2]

设计[3]

4.1 概述