AI开发平台MODELARTS-准备代码:代码上传至SFS Turbo

时间:2025-01-03 09:39:09

代码上传至SFS Turbo

将AscendSpeed代码包AscendCloud-LLM-xxx.zip直接上传至E CS 服务器中的SFS Turbo中,例如存放在/mnt/sfs_turbo/AscendCloud-LLM-xxx.zip目录下并解压缩。

unzip AscendCloud-*.zip

结合准备数据准备权重准备代码,将数据集、原始权重、代码文件都上传至SFS Turbo后,目录结构如下。

/mnt/sfs_turbo/
|──llm_train                       # 解压代码包后自动生成的代码目录,无需用户创建
      |── AscendSpeed              # 代码目录
              |──ascendcloud_patch/   # 针对昇腾云平台适配的功能代码包
              |──scripts/             # 训练需要的启动脚本
      # 自动生成数据目录结构
      |── processed_for_input           # 目录结构会自动生成,无需用户创建
              |── ${model_name}             # 模型名称
                     |── data              # 预处理后数据
		          |── pretrain   # 预训练加载的数据
		          |── finetune   # 微调加载的数据
	      |──converted_weights  # HuggingFace格式转换megatron格式后权重文件
      |── saved_dir_for_output            # 训练输出保存权重,目录结构会自动生成,无需用户创建
              |── ${model_name}             # 模型名称
	                  |── logs              # 训练过程中日志(loss、吞吐性能)
                          |—— saved_models    
		               |── lora              # lora微调输出权重
		               |── sft               # 增量训练输出权重
		               |── pretrain          # 预训练输出权重
# 以下目录结构,用户自己创建
|── training_data                                           #原始数据目录,需要用户手动创建并上传,后续操作步骤中会提示
      ├── train-00000-of-00001-a09b74b3ef9c3b56.parquet    #预训练时预处理后的数据存放地址
      ├── alpaca_gpt4_data.json                            #微调数据文件
|── tokenizers                      #tokenizer目录,需要用户手动创建,后续操作步骤中会提示
      |── llama2-13b-hf
|── models                          #始权重与tokenizer目录,需要用户手动创建,后续操作步骤中会提示
      |── llama2-13b-hf
support.huaweicloud.com/bestpractice-modelarts/modelarts_llm_train_910106.html