AI开发平台MODELARTS-多机多卡数据并行-DistributedDataParallel(DDP):代码改造点

时间：2024-08-26 19:27:18

AI开发平台MODELARTS

代码改造点

引入多进程启动机制：初始化进程
引入几个变量：tcp协议，rank进程序号，worldsize开启的进程数量
分发数据：DataLoader中多了一个Sampler参数，避免不同进程数据重复
模型分发：DistributedDataParallel(model)
模型保存：在序号为0的进程下保存模型

import torch
class Net(torch.nn.Module):
	pass

model = Net().cuda()

### DistributedDataParallel Begin ###
model = torch.nn.parallel.DistributedDataParallel(Net().cuda())
### DistributedDataParallel End ###

上一篇：AI开发平台MODELARTS-多机多卡数据并行-DistributedDataParallel(DDP):训练流程简述

下一篇：AI开发平台MODELARTS-多机多卡数据并行-DistributedDataParallel(DDP):训练流程简述

新客秒杀 2核2G 3M L实例

68元/年

普惠上云领千元上云礼券

立即前往

企业专享 X实例 4核8G 5M

888元/年

热门域名 1元随心购

1元/年起

AI开发平台MODELARTS-多机多卡数据并行-DistributedDataParallel(DDP):代码改造点

意见反馈

0/200

提交取消

提交成功！非常感谢您的反馈，我们会继续努力做到更好反馈提交失败！请稍后重试！

AI开发平台MODELARTS-多机多卡数据并行-DistributedDataParallel(DDP):代码改造点

AI开发平台MODELARTS-多机多卡数据并行-DistributedDataParallel(DDP):代码改造点

代码改造点

7*24

备案

专业服务

退订

建议反馈

售前咨询热线