<aside> 💡

论文

LLM.int8(): 8-bit Matrix Multiplication for Transformers at Scale

https://github.com/bitsandbytes-foundation/bitsandbytes

LLM.int8() [2]

原理

LLM.int8()是一种采用混合精度分解的量化方法。该方案先做了一个矩阵分解,对绝大部分权重和激活用8bit量化(vector-wise)。对离群特征的几个维度保留16bit,对其做高精度的矩阵乘法。

算法

q3obe2p3.bmp

【图中 X → activation , W → weight, 离群值 不量化 】

LLM.int8() 通过三个步骤完成矩阵乘法计算: