论文地址
Megatron-LM: Training Multi-Billion Parameter Language Models Using Model Parallelism
2020 NVIDIA 【TP=模型并行】
Efficient Large-Scale Language Model Training on GPU Clusters Using Megatron-LM
2021 NVIDIA 【DP,TP,PP 】
Reducing Activation Recomputation in Large Transformer Models
2022 NVIDIA
开源地址
数据并行扩展通常效果很好,但有两个限制:
模型并行分为两种:流水线并行和张量并行,就是把模型切分的方式。
