华为云首页用户手册

AI开发平台MODELARTS-多机多卡数据并行-DistributedDataParallel(DDP):训练流程简述

AI开发平台MODELARTS-多机多卡数据并行-DistributedDataParallel(DDP):训练流程简述

时间：2024-08-26 19:27:18

AI开发平台MODELARTS

训练流程简述

相比于DP，DDP能够启动多进程进行运算，从而大幅度提升计算资源的利用率。可以基于torch.distributed实现真正的分布式计算，具体的原理此处不再赘述。大致的流程如下：

初始化进程组。
创建分布式并行模型，每个进程都会有相同的模型和参数。
创建数据分发Sampler，使每个进程加载一个mini batch中不同部分的数据。
网络中相邻参数分桶，一般为神经网络模型中需要进行参数更新的每一层网络。
每个进程前向传播并各自计算梯度。
模型某一层的参数得到梯度后会马上进行通讯并进行梯度平均。
各GPU更新模型参数。

具体流程图如下：

图1 多机多卡数据并行训练

上一篇：AI开发平台MODELARTS-多机多卡数据并行-DistributedDataParallel(DDP):代码改造点

下一篇：AI开发平台MODELARTS-多机多卡数据并行-DistributedDataParallel(DDP):代码改造点

新客秒杀 2核2G 3M L实例

68元/年

普惠上云领千元上云礼券

立即前往

企业专享 X实例 4核8G 5M

888元/年

热门域名 1元随心购

1元/年起

AI开发平台MODELARTS-多机多卡数据并行-DistributedDataParallel(DDP):训练流程简述

意见反馈

0/200

提交成功！非常感谢您的反馈，我们会继续努力做到更好反馈提交失败！请稍后重试！

推荐文章

解决方案
相关专题