AI开发平台ModelArts-准备代码:代码上传至SFS Turbo

时间：2025-02-12 15:14:13

AI开发平台ModelArts

代码上传至SFS Turbo

将AscendSpeed代码包AscendCloud-LLM-xxx.zip直接上传至E CS 服务器中的SFS Turbo中，例如存放在/mnt/sfs_turbo/AscendCloud-LLM-xxx.zip目录下并解压缩。

unzip AscendCloud-*.zip

结合准备数据、准备权重、准备代码，将数据集、原始权重、代码文件都上传至SFS Turbo后，目录结构如下。

/mnt/sfs_turbo/|──llm_train                       # 解压代码包后自动生成的代码目录，无需用户创建      |── AscendSpeed              # 代码目录              |──ascendcloud_patch/   # 针对昇腾云平台适配的功能代码包              |──scripts/             # 训练需要的启动脚本      # 自动生成数据目录结构      |── processed_for_input           # 目录结构会自动生成，无需用户创建              |── ${model_name}             # 模型名称                     |── data              # 预处理后数据          |── pretrain   # 预训练加载的数据          |── finetune   # 微调加载的数据      |──converted_weights  # HuggingFace格式转换megatron格式后权重文件      |── saved_dir_for_output            # 训练输出保存权重，目录结构会自动生成，无需用户创建              |── ${model_name}             # 模型名称                  |── logs              # 训练过程中日志（loss、吞吐性能）                          |—— saved_models                   |── lora              # lora微调输出权重               |── sft               # 增量训练输出权重               |── pretrain          # 预训练输出权重# 以下目录结构，用户自己创建|── training_data                                           #原始数据目录，需要用户手动创建并上传，后续操作步骤中会提示      ├── train-00000-of-00001-a09b74b3ef9c3b56.parquet    #预训练时预处理后的数据存放地址      ├── alpaca_gpt4_data.json                            #微调数据文件|── tokenizers                      #tokenizer目录，需要用户手动创建，后续操作步骤中会提示      |── llama2-13b-hf|── models                          #原始权重与tokenizer目录，需要用户手动创建，后续操作步骤中会提示      |── llama2-13b-hf

上一篇：AI开发平台ModelArts-准备代码:获取模型软件包

下一篇：AI开发平台ModelArts-准备代码:获取模型软件包