AI开发平台MODELARTS-使用自定义镜像创建训练作业找不到启动文件:处理方法

时间:2024-10-22 15:11:52

处理方法

需要排查执行命令的启动文件目录是否正确,具体操作如下:

在ModelArts管理控制台,使用训练的 自定义镜像 创建训练作业时,“创建方式”选择“自定义算法”“启动方式”选择“自定义”

例如,当训练代码启动脚本在OBS路径为“obs://bucket-name/app/code/train.py”,创建作业时配置代码目录为“/bucket-name/app/code/”。则代码目录配置完成后,执行如下命令,那么“run_train.sh”将选中的“code”文件夹下载到训练容器的“/home/ma-user/modelarts/user-job-dir”目录中。

bash /home/ma-user/modelarts/user-job-dir/run_train.sh  #训练自定义镜像-预置命令场景

运行命令就可以设置为:

bash /home/ma-user/modelarts/user-job-dir/run_train.sh python /home/ma-user/modelarts/user-job-dir/code/train.py {python_file_parameter}  #训练自定义镜像-预置命令场景
support.huaweicloud.com/trouble-modelarts/modelarts_13_0194.html