Paper

FP8-LM: Training FP8 Large Language Models 微软
FP8 FORMATS FOR DEEP LEARNING NVIDIA
FP8 Quantization: The Power of the Exponent 高通

二、引言[1]

2.1 浮点数值表示

2.5 FP8 硬件支持

A100 和 RTX 3090 都不支持 FP8。
H100/H800 和 RTX 4090 的 Tensor Core 支持 FP8，但是 CUDA Core 不支持。也就是说，可以使用 FP8 的矩阵乘法（Tensor Core），但是不支持矩阵加法（CUDA Core）。

如下图所示，从 Hopper 架构开始，新的 Tensor Core 支持输入两个 FP8 的矩阵，然后以 FP8 格式相乘，并以 FP32 或 FP16 格式进行累加。Cublas 中也提供了相关 API 可以把后续的类型转换融合进去，就可以避免 FP32 或 FP16 的中间结果写回 Global Memory。