2.1 浮点数值表示
2.5 FP8 硬件支持
如下图所示,从 Hopper 架构开始,新的 Tensor Core 支持输入两个 FP8 的矩阵,然后以 FP8 格式相乘,并以 FP32 或 FP16 格式进行累加。Cublas 中也提供了相关 API 可以把后续的类型转换融合进去,就可以避免 FP32 或 FP16 的中间结果写回 Global Memory。