论文

论文地址
- Megatron-LM: Training Multi-Billion Parameter Language Models Using Model Parallelism
  
  2020 NVIDIA 【TP=模型并行】
- Efficient Large-Scale Language Model Training on GPU Clusters Using Megatron-LM
  
  2021 NVIDIA 【DP，TP，PP 】
- Reducing Activation Recomputation in Large Transformer Models
  
  2022 NVIDIA
开源地址

Megatron-LM

Megatron-DeepSpeed

0x01 Introduction [1]

1.2 数据并行

数据并行扩展通常效果很好，但有两个限制：

a）超过某一个点之后，每个GPU的batch size变得太小，这降低了GPU的利用率，增加了通信成本；
b）可使用的最大设备数就是batch size，着限制了可用于训练的加速器数量。

1.3 模型并行

模型并行分为两种：流水线并行和张量并行，就是把模型切分的方式。

流水线并行（pipeline model parallel）是把模型不同的层放到不同设备之上，比如前面几层放到一个设备之上，中间几层放到另外一个设备上，最后几层放到第三个设备之上。
张量并行则是层内分割，把某一个层做切分，放置到不同设备之上，也可以理解为把矩阵运算分配到不同的设备之上，比如把某个矩阵乘法切分成为多个矩阵乘法放到不同设备之上。