AI开发平台MODELARTS-准备代码:工作目录介绍

时间:2024-09-24 10:50:14

工作目录介绍

工作目录结构如下,以下样例都以Qwen-14B为例,请根据实际模型命名,Qwen-7B、Qwen-14B或Qwen-72B。

${workdir}(例如/home/ma-user/ws )
├──llm_train  
    ├── AscendSpeed              #代码目录
        ├── AscendSpeed          #训练依赖的三方模型库
        ├── ModelLink            #AscendSpeed代码目录
        ├── scripts             #训练启动脚本
├── processed_for_ma_input   
      ├── Qwen-14B           #请根据实际模型命名,Qwen-7B、Qwen-14B或Qwen-72B
	      ├── data              #预处理后数据
		     ├── pretrain   #预训练加载的数据
		     ├── finetune   #微调加载的数据
	      ├──converted_weights  #HuggingFace格式转换magatron格式后权重文件
├── saved_dir_for_ma_output         #训练输出保存权重,根据实际训练需求设置
      ├── Qwen-14B           #请根据实际模型命名,Qwen-7B、Qwen-14B或Qwen-72B
	      ├── logs              #训练过程中日志(loss、吞吐性能)
	      ├── lora              #lora微调输出权重
	      ├── sft               #增量训练输出权重
	      ├── pretrain          #预训练输出权重
├── tokenizers                      #原始权重及tokenizer目录
      ├── Qwen-14B           #请根据实际模型命名,Qwen-7B、Qwen-14B或Qwen-72B
├── training_data                   #原始数据目录
      ├── pretrain                  #预训练加载的数据
              ├── train-00000-of-00001-a09b74b3ef9c3b56.parquet  #预训练原始数据文件
      ├── finetune                   #微调训练加载的数据
              ├── alpaca_gpt4_data.json                          #微调训练原始数据文件
     
support.huaweicloud.com/bestpractice-modelarts/modelarts_10_1643.html