AI开发平台MODELARTS-多机多卡数据并行-DistributedDataParallel(DDP):训练流程简述

时间:2024-08-26 19:27:18

训练流程简述

相比于DP,DDP能够启动多进程进行运算,从而大幅度提升计算资源的利用率。可以基于torch.distributed实现真正的分布式计算,具体的原理此处不再赘述。大致的流程如下:

  1. 初始化进程组。
  2. 创建分布式并行模型,每个进程都会有相同的模型和参数。
  3. 创建数据分发Sampler,使每个进程加载一个mini batch中不同部分的数据。
  4. 网络中相邻参数分桶,一般为神经网络模型中需要进行参数更新的每一层网络。
  5. 每个进程前向传播并各自计算梯度。
  6. 模型某一层的参数得到梯度后会马上进行通讯并进行梯度平均。
  7. 各GPU更新模型参数。

具体流程图如下:

图1 多机多卡数据并行训练
support.huaweicloud.com/develop-modelarts/modelarts-distributed-0008.html