调用vLLM的两种方式[1]
LLMEngine
add_request()
step()
vLLM代码整体架构[1]
Centralized Controller
Distributed Workers
Distributed Workers
Worker
加载模型与预分配显存
在vLLM正式开始处理1条请求(也就是LLMEngine的调度器正式开始运作时),它需要做两件和
初始化
相关的事:
加载模型
预分配显存