machine-learning-DPData-Parallel-vs-DDPDistributed-Data-Parallel

2025-03-10 约 1431 字预计阅读 3 分钟

https://bing.ee123.net/img/rand?artid=146147601

[machine learning] DP(Data Parallel) vs DDP(Distributed Data Parallel)

DP和DDP是并行训练的两种方法，本文简单介绍它们两者的区别。

一、DP (Data Parallel)

DP是单进程，多线程的，每个线程负责一个GPU，它只适用于一台机器。DP训练的流程如下图所示(图片转载自：https://medium.com/@mlshark/dataparallel-vs-distributeddataparallel-in-pytorch-whats-the-difference-0af10bb43bc7)：

选择一个GPU作为主GPU，后面梯度( gradients )的计算和模型参数的更新都是在主GPU上完成；
每个GPU都会收到初始模型；
训练数据被均分到每个显卡；
每个GPU各自独立地进行前向传播和反向传播计算，得到各自的梯度。除了主GPU，其他GPU都会把梯度拷贝到共享内存中；
主GPU从共享内存中收集 gather 其他所有GPU的梯度，然后做 reduce(mean or sum) 计算。得到最后梯度后，对模型参数进行更新，更新后的模型会拷贝到共享内存中，其他GPU会从共享内存中拷贝出( scatter )更新后的模型。至此，一轮训练就结束了，每个GPU上的模型都被更新了而且都保持一致( sync )。

从上面的过程中可以看到，梯度的计算和模型的更新都只在一个GPU上进行，这限制了训练的效率；同时，为了保持各个GPU上的模型同步一致，DP训练涉及大量的内存拷贝。DP训练的这种 scatter updated model - gather gradients - per-iteration model copy 模式，以及Python中多线程的限制，带来了极大的性能负担，所以即使在一台机器上DP一般都会比DPP训练慢。因此，DP训练只适用于小型或中型模型，不适合大型模型。

二、DDP (Distributed Data Parallel)

DDP是多进程，每个进程负责一个GPU，支持在一台机器或多台机器上并行训练。DDP训练的过程如下：

每个进程都会拿到相同的模型初始状态；
训练数据被均分到每个GPU；
每个GPU各自独立地进行前向传播和反向传播计算，得到各自的梯度；
当前进程的梯度ready后，会异步调用 allreduce 方法对所有进程的梯度进行平均。此过程完成后，所有进程的梯度都会更新为相同的平均后的梯度；
每个进程独立地更新模型参数。因为每个进程开始时拿到的都是相同的初始模型，每次反向传播后拿到的也是相同的平均梯度，所以每轮训练过后，所有进程中的模型都是保持一致的( sync )。

跟DP相比，DDP中每个进程都是独立地更行模型参数，最大化利用了硬件资源，因此训练更高效快速。

此外DPP比DP有更好的容错机制。如果训练过程中某个GPU出问题了，对于DP，整个训练就会中断甚至失败；对于DDP，它的内置容错机制可以让训练继续下去，最小程度地受到某个GPU断线的影响。

三、其他一些知识点

DDP中的 allreduce 具体是怎么对所有GPU的梯度进行平均的，可以参考这篇文章：https://bobondemon.github.io/2020/12/20/Distributed-Data-Parallel-and-Its-Pytorch-Example/
在DDP训练中，机器又叫 node ，GPU又叫 device 。假设有 N 个node，每个node上有 G 个GPU，那么所有的process数量总和( N*G )就是 World Size (W) ，每个node上所有的process数量总和叫做 Local World Size (L) 。每个process都会有两个ID： local rank [0, L-1]和 global rank [0, w-1]。
nccl
与
gloo
设置DDP环境的时候，通常会见到 nccl 和 gloo 两个配置。 nccl 是专门用于NVIDIA GPU与GPU之间通信的。 gloo 既支持CPU又支持GPU，但是性能肯定不如 nccl 。

dist.init_process_group("gloo", rank=rank, world_size=world_size)
dist.init_process_group("nccl", rank=rank, world_size=world_size)

参考整理自：