训练场景

公式[1]

训练显存消耗(可估算部分)主要包括:模型参数(Model)+ 优化器状态(Optimizer status)+梯度值(Gradient)+激活值(Activation)。根据数值的变化,可将显存消耗分为静态/动态值。训练过程中,模型参数、优化器状态一般不会变化,这两部分归属于静态值激活值、梯度值会随着计算过程发生变化,将它们归类到动态值

<aside> 💡 总结[2] xB的大模型,训练的显存占用约为12-16x GB。(默认全精度float32存储)

</aside>

训练的并行计算公式[1]

推理场景

占用的显存 2x [20]