AI开发平台MODELARTS-准备代码:工作目录介绍

时间:2025-01-24 14:45:28

工作目录介绍

详细的工作目录参考如下,建议参考以下要求设置工作目录。训练脚本以分类的方式集中在scripts文件夹中。
${workdir}(例如/home/ma-user/ws )
|──llm_train                    #解压代码包后自动生成的代码目录,无需用户创建
      |── AscendSpeed              # 代码目录
              |──ascendcloud_patch/   # 针对昇腾云平台适配的功能代码包
              |──scripts/             # 各模型训练需要的启动脚本,训练脚本以分类的方式集中在scripts文件夹中。
      # 自动生成数据目录结构
      |── processed_for_input           #目录结构会自动生成,无需用户创建
              |── ${model_name}             # 模型名称
                     |── data              # 预处理后数据
		          |── pretrain   # 预训练加载的数据
		          |── finetune   # 微调加载的数据
	      |──converted_weights  # HuggingFace格式转换megatron格式后权重文件
      |── saved_dir_for_output            # 训练输出保存权重,目录结构会自动生成,无需用户创建
              |── ${model_name}             # 模型名称
	                  |── logs              # 训练过程中日志(loss、吞吐性能)
                          |—— saved_models    
		               |── lora              # lora微调输出权重
		               |── sft               # 增量训练输出权重
		               |── pretrain          # 预训练输出权重
|── tokenizers                      #tokenizer目录,需要用户手动创建,后续操作步骤中会提示
      |── Llama2-70B
|── models                          #始权重与tokenizer目录,需要用户手动创建,后续操作步骤中会提示
      |── Llama2-70B
|── training_data                   #原始数据目录,需要用户手动创建,后续操作步骤中会提示
      |── train-00000-of-00001-a09b74b3ef9c3b56.parquet  #原始数据文件
      |── alpaca_gpt4_data.json     #微调数据文件
support.huaweicloud.com/bestpractice-modelarts/modelarts_llm_train_91004.html