AI开发平台MODELARTS-准备代码:工作目录介绍

时间：2025-01-03 09:39:04

AI开发平台MODELARTS

工作目录介绍

详细的工作目录参考如下，建议参考以下要求设置工作目录。训练脚本以分类的方式集中在scripts文件夹中。

${workdir}（例如/home/ma-user/ws ）
|──llm_train                    #解压代码包后自动生成的代码目录，无需用户创建
      |── AscendSpeed              # 代码目录
              |──ascendcloud_patch/   # 针对昇腾云平台适配的功能代码包
              |──scripts/             # 各模型训练需要的启动脚本，训练脚本以分类的方式集中在scripts文件夹中。
      # 自动生成数据目录结构
      |── processed_for_input           #目录结构会自动生成，无需用户创建
              |── ${model_name}             # 模型名称
                     |── data              # 预处理后数据
		          |── pretrain   # 预训练加载的数据
		          |── finetune   # 微调加载的数据
	      |──converted_weights  # HuggingFace格式转换megatron格式后权重文件
      |── saved_dir_for_output            # 训练输出保存权重，目录结构会自动生成，无需用户创建
              |── ${model_name}             # 模型名称
	                  |── logs              # 训练过程中日志（loss、吞吐性能）
                          |—— saved_models    
		               |── lora              # lora微调输出权重
		               |── sft               # 增量训练输出权重
		               |── pretrain          # 预训练输出权重
|── tokenizers                      #tokenizer目录，需要用户手动创建，后续操作步骤中会提示
      |── Llama2-70B
|── models                          #原始权重与tokenizer目录，需要用户手动创建，后续操作步骤中会提示
      |── Llama2-70B
|── training_data                   #原始数据目录，需要用户手动创建，后续操作步骤中会提示
      |── train-00000-of-00001-a09b74b3ef9c3b56.parquet  #原始数据文件
      |── alpaca_gpt4_data.json     #微调数据文件

上一篇：AI开发平台MODELARTS-准备代码:模型软件包结构说明

下一篇：AI开发平台MODELARTS-准备代码:获取模型软件包