总结

AWQ vs GPTQ [1]

特征/算法	AWQ	GPTQ
设计目的	量化大型语言模型，特别强调保护显著权重，以减少量化误差。	专为GPT模型设计，高效地完成权重量化，以减少计算和存储成本。
量化方法	基于激活分布而不是权重来选择保护的权重。	一次性权重量化，基于近似二阶信息。
精度和效率	在不同模型和位精度上都表现优异，能够提高视觉语言模型的性能。	在极低位数量化（如2位）下仍保持合理准确度，能在短时间内量化大规模模型。
硬件适应性	支持高效推理框架，适用于桌面和移动GPU。	使得在单个GPU上执行大规模模型成为可能，提高了推理速度。
应用范围	适用于多种模型和任务，包括多模态语言模型。	专门针对GPT模型，适用于高计算需求的模型。
推理性能提升	提供显著的速度提升，尤其在边缘设备上表现突出。	在高端和成本效益高的GPU上均实现显著的推理速度提升。

Qwen on vllm[10]

from vllm import LLM, SamplingParams
llm = LLM(model="Qwen/Qwen2.5-7B-Instruct-AWQ", quantization="awq")

from vllm import LLM, SamplingParams
llm = LLM(model="Qwen/Qwen2.5-7B-Instruct-GPTQ-Int4", quantization="gptq")

from vllm import LLM, SamplingParams
llm = LLM(model="Qwen/Qwen2.5-7B-Instruct-GPTQ-Int4", quantization="gptq", kv_cache_dtype="fp8_e5m2")

参考

《8-实战Transformers模型量化》 Ai大模型微调

usage

Qwen on vllm

1xx. LLM（十一）：大语言模型的模型量化(INT8/INT4)技术 LLM.in8 + GPTQ