DDP

原理[1]

Ring AllReduce algorithm[1]

DDP 相关基本概念[1]

node, rank, world_size

代码[2]

!python -m torch.distributed.launch --use-env --nproc-per-node=2 ddp_gpus_torchrun.py --max_epochs 5 --batch_size 32
!torchrun --nproc-per-node=2 ddp_gpus_torchrun.py --max_epochs 5 --batch_size 32