AI开发平台MODELARTS-镜像方案说明:基础镜像的使用

时间:2024-12-25 09:49:50

基础镜像的使用

用户通过E CS 获取和上传基础镜像步骤拉取基础镜像并上传至SWR中。随后可通过使用基础镜像ECS中构建新镜像的方式可二选一来部署训练环境。方案的区别如下:

  • 直接使用基础镜像方案:用户可在训练作业中直接选择基础镜像作为运行环境。但基础镜像中pip依赖包缺少或版本不匹配,因此每次创建训练作业时,训练作业的启动命令中都需要执行 install.sh 文件,来安装依赖以及下载完整代码。
  • ECS中构建新镜像方案:在ECS中,通过运行Dockerfile文件会在基础镜像上创建新的镜像。新镜像命名可自定义。Dockerfile会下载Megatron-LM、MindSpeed、ModelLink源码,并将以上源码打包至镜像环境中。

    如果用户希望修改源码,则需要使用新镜像创建容器,在容器内的/home/ma-user工作目录中访问并编辑以上源码文件。编辑完成后重新构建新镜像。

使用以上方案时,都会下载Megatron-LM、MindSpeed、ModelLink源码至AscendSpeed文件夹中。下载后的源码文件结构如下:
AscendSpeed/
    |──ascendcloud_patch/   # 针对昇腾云平台适配的功能补丁包
    |──scripts/             # 训练需要的启动脚本
    |——src/                 # 启动命令行封装脚本,在install.sh里面自动构建
    |──Megatron-LM/         # 适配昇腾的Megatron-LM训练框架
    |──MindSpeed/           # MindSpeed昇腾大模型加速库
    |──ModelLink/           # ModelLink端到端的大语言模型方案
          |——megatron/      # 注意:该文件夹从Megatron-LM中复制得到
          |——...

support.huaweicloud.com/bestpractice-modelarts/modelarts_llm_train_908112.html