| 特征/算法 | AWQ | GPTQ |
|---|---|---|
| 设计目的 | 量化大型语言模型,特别强调保护显著权重,以减少量化误差。 | 专为GPT模型设计,高效地完成权重量化,以减少计算和存储成本。 |
| 量化方法 | 基于激活分布而不是权重来选择保护的权重。 | 一次性权重量化,基于近似二阶信息。 |
| 精度和效率 | 在不同模型和位精度上都表现优异,能够提高视觉语言模型的性能。 | 在极低位数量化(如2位)下仍保持合理准确度,能在短时间内量化大规模模型。 |
| 硬件适应性 | 支持高效推理框架,适用于桌面和移动GPU。 | 使得在单个GPU上执行大规模模型成为可能,提高了推理速度。 |
| 应用范围 | 适用于多种模型和任务,包括多模态语言模型。 | 专门针对GPT模型,适用于高计算需求的模型。 |
| 推理性能提升 | 提供显著的速度提升,尤其在边缘设备上表现突出。 | 在高端和成本效益高的GPU上均实现显著的推理速度提升。 |
from vllm import LLM, SamplingParams
llm = LLM(model="Qwen/Qwen2.5-7B-Instruct-AWQ", quantization="awq")
from vllm import LLM, SamplingParams
llm = LLM(model="Qwen/Qwen2.5-7B-Instruct-GPTQ-Int4", quantization="gptq")
from vllm import LLM, SamplingParams
llm = LLM(model="Qwen/Qwen2.5-7B-Instruct-GPTQ-Int4", quantization="gptq", kv_cache_dtype="fp8_e5m2")
1xx. LLM(十一):大语言模型的模型量化(INT8/INT4)技术 LLM.in8 + GPTQ