调用vLLM的两种方式[1]

LLMEngine

add_request()
step()

vLLM代码整体架构[1]

Centralized Controller

Distributed Workers

Distributed Workers
Worker

加载模型与预分配显存

在vLLM正式开始处理1条请求（也就是LLMEngine的调度器正式开始运作时），它需要做两件和初始化相关的事：

加载模型
预分配显存