AI开发平台MODELARTS-创建生产训练作业:选择创建方式(使用自定义镜像)

时间:2024-12-16 16:12:03

选择创建方式(使用 自定义镜像

如果选择使用自定义镜像创建训练作业,则参考表3选择训练作业的创建方式。
表3 创建训练作业的创建方式(使用自定义镜像)

参数名称

说明

创建方式

必选,选择“自定义算法”

启动方式

必选,选择“自定义”

镜像

必填,填写容器镜像的地址。

容器镜像地址的填写支持如下方式。
  • 选择自有镜像或他人共享的镜像:单击右边的“选择”,从容器镜像中选择用于训练的容器镜像。所需镜像需要提前上传到SWR服务中。
  • 选择公开镜像:直接输入SWR服务中公开镜像的地址。地址直接填写“组织名称/镜像名称:版本名称”,不需要带 域名 信息,系统会自动拼接域名地址。

代码目录

选择训练代码文件所在的OBS目录。如果自定义镜像中不含训练代码则需要配置该参数,如果自定义镜像中已包含训练代码则不需要配置。

  • 需要提前将代码上传至OBS桶中,目录内文件总大小要小于或等于5GB,文件数要小于或等于1000个,文件深度要小于或等于32。
  • 训练代码文件会在训练作业启动的时候被系统自动下载到训练容器的“${MA_JOB_DIR}/demo-code”目录中,“demo-code”为存放代码目录的最后一级OBS目录。例如,“代码目录”选择的是“/test/code”,则训练代码文件会被下载到训练容器的“${MA_JOB_DIR}/code”目录中。

运行用户ID

容器运行时的用户ID,该参数为选填参数,建议使用默认值1000。

如果需要指定uid,则uid数值需要在规定范围内,不同资源池的uid范围如下:

  • 公共资源池:1000-65535
  • 专属资源池:0-65535

启动命令

必填,镜像的启动命令。

运行训练作业时,当“代码目录”下载完成后,“启动命令”会被自动执行。
  • 如果训练启动脚本用的是py文件,例如“train.py”,则启动命令如下所示。
    python ${MA_JOB_DIR}/demo-code/train.py
  • 如果训练启动脚本用的是sh文件,例如“main.sh”,则启动命令如下所示。
    bash ${MA_JOB_DIR}/demo-code/main.sh

启动命令支持使用“;”“&&”拼接多条命令,命令中的“demo-code”为存放代码目录的最后一级OBS目录,以实际情况为准。

说明:

为保证数据安全,请勿输入敏感信息,例如明文密码。

本地代码目录

仅当“代码来源”选择“对象OBS存储”时才显示该参数。

指定训练容器的本地目录,启动训练时系统会将代码目录下载至此目录。

此参数可选,默认本地代码目录为“/home/ma-user/modelarts/user-job-dir”

工作目录

训练时,系统会自动cd到此目录下执行启动文件。

训练支持的自定义镜像使用说明请参考自定义镜像的启动命令规范

support.huaweicloud.com/usermanual-standard-modelarts/develop-modelarts-0010.html