AI开发平台ModelArts-使用自定义镜像创建训练作业,找不到启动文件:处理方法

时间:2023-11-01 16:25:38

处理方法

需要排查执行命令的启动文件目录是否正确,具体操作如下:

在ModelArts管理控制台,使用训练的 自定义镜像 创建训练作业时,“算法来源”选择“自定义”页签。

若训练代码启动脚本在OBS路径为“obs://bucket-name/app/code/train.py”,创建作业时配置代码目录为“/bucket-name/app/code/”。

代码目录配置完成后,执行如下命令,那么“run_train.sh”将选中的“code”文件夹下载到旧版训练容器的“/home/work/user-job-dir”目录中。

bash /home/work/run_train.sh  #旧版训练命令,run_train.sh训练启动引导脚本,打包在ModelArts提供的基础镜像中。

运行命令就可以设置为:

bash /home/work/run_train.sh python /home/work/user-job-dir/code/train.py {python_file_parameter}  #旧版训练
support.huaweicloud.com/trouble-modelarts/modelarts_13_0013.html