<aside> 💡

LLM.int8() 属于 round-to-nearest (RTN) 量化：舍入到最近的定点数。【keyword: 混合精度分解离群值】 </aside>

论文

论文地址

LLM.int8(): 8-bit Matrix Multiplication for Transformers at Scale

开源地址

https://github.com/bitsandbytes-foundation/bitsandbytes

LLM.int8() [2]

原理

LLM.int8()是一种采用混合精度分解的量化方法。该方案先做了一个矩阵分解，对绝大部分权重和激活用8bit量化（vector-wise）。对离群特征的几个维度保留16bit，对其做高精度的矩阵乘法。

算法

【图中 X → activation ， W → weight，离群值不量化】

LLM.int8() 通过三个步骤完成矩阵乘法计算:

从输入的隐含状态中，按列提取异常值 (离群特征，即大于某个阈值的值)。
对离群特征进行 FP16 矩阵运算，对非离群特征进行量化，做 INT8 矩阵运算；