AI开发平台MODELARTS-准备代码:工作目录介绍

时间:2025-03-03 21:37:59

工作目录介绍

工作目录结构如下,以下样例以Llama2-70B为例,请根据实际模型命名,Llama2-7B、Llama2-13B或Llama2-70B。

${workdir}                         #工作目录,例如/home/ma-user/ws
|──llm_train  
    |── AscendSpeed              #代码目录
        |── AscendSpeed          #训练依赖的三方模型库
        |── ModelLink            #AscendSpeed代码目录
        |── scripts/             #训练启动脚本
# 数据目录结构
|── processed_for_ma_input   
      |── Llama2-70B
	      |── data              #预处理后数据
		     |── pretrain   #预训练加载的数据
		     |── finetune   #微调加载的数据
	      |──converted_weights  #HuggingFace格式转换megatron格式后权重文件
|── saved_dir_for_ma_output         #训练输出保存权重,根据实际训练需求设置
      |── Llama2-70B
	      |── logs              #训练过程中日志(loss、吞吐性能)
	      |── lora              #lora微调输出权重
	      |── sft               #增量训练输出权重
	      |── pretrain          #预训练输出权重
|── tokenizers                      #原始权重及tokenizer目录
      |── Llama2-70B
|── training_data                   #原始数据目录
      |── train-00000-of-00001-a09b74b3ef9c3b56.parquet  #原始数据文件
support.huaweicloud.com/bestpractice-modelarts/modelarts_10_1603.html