调用vLLM的两种方式[1]

k3dijol7.bmp

LLMEngine

vLLM代码整体架构[1]

sj8k850s.bmp

Centralized Controller

Distributed Workers

加载模型与预分配显存

在vLLM正式开始处理1条请求(也就是LLMEngine的调度器正式开始运作时),它需要做两件和初始化相关的事: