检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
如果训练数据保存在Notebook中,则将其打包成zip文件并上传到指定的obs_path中; 将训练作业提交到ModelArts训练服务中,训练作业会使用当前Notebook的镜像来执行训练作业; 训练任务得到的输出上传到4指定的obs_path中,日志上传到log_url指定的位置中。
conf sysctl -p | grep net.ipv4.ip_forward 步骤二 获取训练镜像 建议使用官方提供的镜像部署训练服务。镜像地址{image_url}参见镜像地址获取。 docker pull {image_url} 步骤三 启动容器镜像 启动容器镜像前请
dSpeed; sh ./scripts/install.sh; sh ./scripts/obs_pipeline.sh 如果镜像使用ECS中构建新镜像构建的新镜像时,训练作业启动命令中输入: cd /home/ma-user/modelarts/user-job-dir/AscendSpeed;
dSpeed; sh ./scripts/install.sh; sh ./scripts/obs_pipeline.sh 如果镜像使用ECS中构建新镜像构建的新镜像时,训练作业启动命令中输入: cd /home/ma-user/modelarts/user-job-dir/AscendSpeed;
f'epoch_{epoch}.pth')) if __name__ == '__main__': main() 常见问题 1、示例代码中如何使用不同的数据集? 上述代码如果使用cifar10数据集,则将数据集下载并解压后,上传至OBS桶中,文件目录结构如下: DDP |--- main
资源池的驱动信息。 controlMode Integer 资源池的受限状态。可选值如下: 0:代表不受限 1:转包周期受限 2:规格变更受限 4:服务受限 8:冻结 16:公安冻结(不可退订) 另外状态是可以叠加的,比如9代表转包周期受限+冻结状态。 表8 resources 参数 参数类型
ascendfactory-cli train <cfgs_yaml_file> <model_name> <exp_name> 如果镜像使用ECS中构建新镜像构建的新镜像时,训练作业启动命令中输入: cd /home/ma-user/work/llm_train/AscendFactory;
sh; ascendfactory-cli train <cfgs_yaml_file> <model_name> <exp_name> 使用ECS中构建新镜像构建的新镜像时,训练作业启动命令中输入: cd /home/ma-user/modelarts/user-job-dir/AscendFactory;
资源池的驱动信息。 controlMode Integer 资源池的受限状态。可选值如下: 0:代表不受限 1:转包周期受限 2:规格变更受限 4:服务受限 8:冻结 16:公安冻结(不可退订) 另外状态是可以叠加的,比如9代表转包周期受限+冻结状态。 表17 resources 参数 参数类型
一个 否 PFS、Placeholder 表14 NFS 属性 描述 是否必填 数据类型 nfs_server_path NFS文件系统的服务地址 是 str、Placeholder local_path 挂载到容器里面的路径 是 str、Placeholder read_only