<aside> 💡
LLM.int8(): 8-bit Matrix Multiplication for Transformers at Scale
https://github.com/bitsandbytes-foundation/bitsandbytes
LLM.int8()是一种采用混合精度分解的量化方法。该方案先做了一个矩阵分解,对绝大部分权重和激活用8bit量化(vector-wise)。对离群特征的几个维度保留16bit,对其做高精度的矩阵乘法。

【图中 X → activation , W → weight, 离群值 不量化 】
LLM.int8() 通过三个步骤完成矩阵乘法计算: