检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
创建分布式并行模型,每个进程都会有相同的模型和参数。 创建数据分发Sampler,使每个进程加载一个mini batch中不同部分的数据。 网络中相邻参数分桶,一般为神经网络模型中需要进行参数更新的每一层网络。 每个进程前向传播并各自计算梯度。 模型某一层的参数得到梯度后会马上进行通讯并进行梯度平均。
String 内存单元数。 表47 Disk 参数 参数类型 描述 size String 磁盘大小。 unit String 磁盘大小单位,一般为GB。 表48 JobVolume 参数 参数类型 描述 nfs Nfs object nfs方式的挂载卷。 表49 Nfs 参数 参数类型
String 内存单元数。 表45 Disk 参数 参数类型 描述 size String 磁盘大小。 unit String 磁盘大小单位,一般为GB。 表46 JobVolume 参数 参数类型 描述 nfs Nfs object nfs方式的挂载卷。 表47 Nfs 参数 参数类型
String 内存单元数。 表44 Disk 参数 参数类型 描述 size String 磁盘大小。 unit String 磁盘大小单位,一般为GB。 表45 JobVolume 参数 参数类型 描述 nfs Nfs object nfs方式的挂载卷。 表46 Nfs 参数 参数类型
Content-Type→text/plain 其中,加粗的斜体字段需要根据实际值填写: “task_id”为训练作业的任务名称,一般使用work-0。 Content-Type可以设置成不同方式。text/plain,返回OBS临时预览链接。application/oc
签实现资源分组管理。 后续操作 当创建训练作业的参数配置完成后,单击“提交”,在信息确认页面单击“确定”,提交创建训练作业任务。 训练作业一般需要运行一段时间,前往训练作业列表,可以查看训练作业的基本情况。 在训练作业列表中,刚创建的训练作业状态为“等待中”。 当训练作业的状态变
在“规格确认”页面,确认训练作业的参数信息,确认无误后单击“提交”。 训练作业创建完成后,后台将自动完成容器镜像下载、代码目录下载、执行启动命令等动作。 训练作业一般需要运行一段时间,根据您的训练业务逻辑和选择的资源不同,训练时长将持续几十分钟到几小时不等。训练作业执行成功后,日志信息如图1所示。 图1
String 内存单元数。 表92 Disk 参数 参数类型 描述 size String 磁盘大小。 unit String 磁盘大小单位,一般为GB。 表93 JobVolume 参数 参数类型 描述 nfs Nfs object nfs方式的挂载卷。 表94 Nfs 参数 参数类型