AI开发平台MODELARTS-镜像方案说明:基础镜像的使用

时间:2024-12-17 18:06:49

基础镜像的使用

用户通过E CS 获取和上传基础镜像步骤拉取基础镜像并上传至SWR中。随后可通过使用基础镜像ECS中构建新镜像的方式二选一来部署训练环境。方案的区别如下:

  • 直接使用基础镜像方案:用户可在训练作业中直接选择基础镜像作为运行环境。但基础镜像中pip依赖包缺少或版本不匹配,因此每次创建训练作业时,训练作业的启动命令中都需要执行install.sh文件,来安装依赖以及下载完整代码。
  • ECS中构建新镜像方案:在ECS中,通过运行Dockerfile文件会在基础镜像上创建新的镜像。新镜像命名可自定义。Dockerfile会下载Megatron-LM、MindSpeed、ModelLink源码,并将以上源码打包至镜像环境中。

    如果用户希望修改源码,则需要使用新镜像创建容器,在容器内的/home/ma-user工作目录中访问并编辑以上源码文件。编辑完成后重新构建新镜像。

注意:训练作业的资源池以及ECS都需要联通外网,否则会安装和下载失败。

support.huaweicloud.com/bestpractice-modelarts/modelarts_llm_train_91178.html