AI开发平台MODELARTS-准备资源:SFS Turbo模式下执行流程

时间:2024-12-09 20:36:10

SFS Turbo模式下执行流程

SFS Turbo作为完全托管的共享文件存储系统,在本方案中作为主要的存储介质应用于训练作业。因此,后续需要准备的原始数据集原始Hugging Face权重文件以及训练代码都需要上传至SFS Turbo中。而基于SFS Turbo所执行的训练流程如下:

  1. 将SFS Turbo挂载至E CS 服务器后,可直接访问SFS Turbo。通过SSH连接ECS将代码包上传至SFS Turbo中。
  2. 表1获取基础镜像,随后通过镜像方案说明中的步骤执行代码包中llm_train/AscendSpeed/Dockerfile文件,构建新的镜像,并上传至SWR中。
  3. 新构建的镜像中,包含有ModelLink、MindSpeed、Megatron-LM等代码,在集群中启动容器即可通过/home/ma-user/AscendSpeed路径访问。
  4. 在ModelArts中创建训练作业如:预训练,执行代码包中例如:scripts/llama2/0_pl_pretrain_13b.sh 的脚本,开始训练。
  5. 在训练中,程序会自动执行对数据集预处理、权重转换、执行训练等操作,具体可通过训练启动脚本说明和参数配置训练的数据集预处理说明训练的权重转换说明了解其中的操作。
  6. 训练完成后在SFS Turbo中保存训练的模型结果。(多机情况下,只有在rank_0节点进行数据预处理,权重转换等工作,所以原始数据集和原始权重,包括保存结果路径,都应该在共享目录下)
support.huaweicloud.com/bestpractice-modelarts/modelarts_10_01833.html