总结

AWQ vs GPTQ [1]

特征/算法 AWQ GPTQ
设计目的 量化大型语言模型,特别强调保护显著权重,以减少量化误差。 专为GPT模型设计,高效地完成权重量化,以减少计算和存储成本。
量化方法 基于激活分布而不是权重来选择保护的权重。 一次性权重量化,基于近似二阶信息。
精度和效率 在不同模型和位精度上都表现优异,能够提高视觉语言模型的性能。 极低位数量化(如2位)下仍保持合理准确度,能在短时间内量化大规模模型。
硬件适应性 支持高效推理框架,适用于桌面和移动GPU。 使得在单个GPU上执行大规模模型成为可能,提高了推理速度。
应用范围 适用于多种模型和任务,包括多模态语言模型。 专门针对GPT模型,适用于高计算需求的模型。
推理性能提升 提供显著的速度提升,尤其在边缘设备上表现突出。 在高端和成本效益高的GPU上均实现显著的推理速度提升。

Qwen on vllm[10]

from vllm import LLM, SamplingParams
llm = LLM(model="Qwen/Qwen2.5-7B-Instruct-AWQ", quantization="awq")

from vllm import LLM, SamplingParams
llm = LLM(model="Qwen/Qwen2.5-7B-Instruct-GPTQ-Int4", quantization="gptq")

from vllm import LLM, SamplingParams
llm = LLM(model="Qwen/Qwen2.5-7B-Instruct-GPTQ-Int4", quantization="gptq", kv_cache_dtype="fp8_e5m2")

参考

  1. 《8-实战Transformers模型量化》 Ai大模型微调

usage

  1. Qwen on vllm

1xx. LLM(十一):大语言模型的模型量化(INT8/INT4)技术 LLM.in8 + GPTQ