AI开发平台ModelArts-示例:使用自定义镜像创建训练作业:单机训练

时间:2023-11-01 16:16:40

单机训练

  1. 将训练代码“mnist_softmax.py”和训练数据上传至OBS。将代码和数据都放在同一代码根目录下,以便直接下载到容器中。

    以根目录“obs://deep-learning/new/mnist/”为例:

    训练代码文件为“obs://deep-learning/new/mnist/mnist_softmax.py”

    数据存储路径为“obs://deep-learning/new/mnist/mnist_data”

  2. 创建 自定义镜像 训练作业,“镜像地址”“代码目录”“运行命令”参考如下信息填写,“数据存储位置”“训练输出位置”请根据实际情况填写。
    • “镜像地址”:填写已上传镜像的“SWR_URL”
    • “代码目录”:训练代码存储的OBS路径,即为步骤1中的代码根目录。

      在训练作业实际启动之前,ModelArts自动将“代码目录”下的所有内容递归下载到容器本地路径。下载后的容器本地路径为“/home/work/user-job-dir/${代码根目录的最后一级名称}/”。例如“代码目录”选择“obs://deep-learning/new/mnist”时,下载后的本地路径为“/home/work/user-job-dir/mnist/”,代码启动文件为“/home/work/user-job-dir/mnist/mnist_softmax.py”

    • “运行命令”bash /home/work/run_train.sh python /home/work/user-job-dir/mnist/mnist_softmax.py --data_url /home/work/user-job-dir/mnist/mnist_data

      其中,“/home/work/user-job-dir/mnist/mnist_softmax.py”为代码启动文件,“--data_url /home/work/user-job-dir/mnist/mnist_data”为数据存储路径。

  3. 训练作业创建完成后,后台完成代码目录下载、自定义镜像审核以及自定义镜像的训练作业。训练作业一般需要运行一段时间,根据您选择的数据量和资源不同,训练时间将耗时几分钟到几十分钟不等。程序执行成功后,日志信息如下所示。
    图1 运行日志信息
support.huaweicloud.com/engineers-modelarts/modelarts_23_0088.html