论文

论文地址

AWQ: ACTIVATION-AWARE WEIGHT QUANTIZATION FOR ON-DEVICE LLM COMPRESSION AND ACCELERATION

开源地址

AWQ [3]

背景

因此，作者提出了一种"激活感知权重量化（Activation-aware Weight Quantization，AWQ）"方法，这是一种对硬件友好的低比特 LLM 仅权重化方法。该方法源于“权重对于LLM的性能并不同等重要”的观察，存在约（0.1%-1%）显著权重对大模型性能影响太大，通过跳过这1%的显著权重（salient weight）不进行量化，可以大大减少量化误差。

【保留0.1%-1%的FP16的权重 提高了性能】

技术原理

AWQ是一种对大模型仅权重量化方法。通过保护更“重要”的权重不进行量化，从而在不进行训练的情况下提高准确率。