AI开发平台MODELARTS-SFT全参微调训练任务:Step2 修改训练超参配置

时间:2024-09-14 22:29:35

Step2 修改训练超参配置

Llama2-70b和Llama2-13b的SFT微调为例,执行脚本为0_pl_sft_70b.sh0_pl_sft_13b.sh

修改模型训练脚本中的超参配置,必须修改的参数如表1所示。其他超参均有默认值,可以参考表1按照实际需求修改。
表1 训练超参配置说明

参数

示例值

参数说明

ORIGINAL_TRAIN_DATA_PATH

/home/ma-user/ws/llm_train/AscendSpeed/training_data/alpaca_gpt4_data.json

必须修改。训练时指定的输入数据路径。请根据实际规划修改。

ORIGINAL_HF_WEIGHT

/home/ma-user/ws/llm_train/AscendSpeed/models/llama2-13B

必须修改。加载Hugging Face权重(可与tokenizer相同文件夹)时,对应的存放地址。请根据实际规划修改。

TOKENIZER_PATH

/home/ma-user/ws/llm_train/AscendSpeed/tokenizers/llama2-13B

该参数为tokenizer文件的存放地址。默认与ORIGINAL_HF_WEIGHT路径相同。如果用户需要将Hugging Face权重与tokenizer文件分开存放时,则需要修改参数。

INPUT_PRO CES SED_DIR

/home/ma-user/ws/llm_train/AscendSpeed/processed_for_input/llama2-13b

该路径下保存“数据转换”和“权重转换”的结果。示例中,默认生成在“processed_for_input”文件夹下。如果用户需要修改,可添加并自定义该变量。

OUTPUT_SAVE_DIR

/home/ma-user/ws/llm_train/AscendSpeed/saved_dir_for_output/

该路径下统一保存生成的 CKPT、P LOG 、LOG 文件。示例中,默认统一保存在“saved_dir_for_output”文件夹下。如果用户需要修改,可添加并自定义该变量。

CKPT_SAVE_PATH

/home/ma-user/ws/llm_train/AscendSpeed/saved_dir_for_output/saved_models/llama2-13b

保存训练生成的模型 CKPT 文件。示例中,默认保存在“saved_dir_for_output/saved_models”文件夹下。如果用户需要修改,可添加并自定义该变量。

LOG_SAVE_PATH

/home/ma-user/ws/llm_train/AscendSpeed/saved_dir_for_output/saved_models/llama2-13b/log

保存训练过程记录的日志 LOG 文件。示例中,默认保存在“saved_models/llama2-13b/log”文件夹下。如果用户需要修改,可添加并自定义该变量。

ASCEND_PROCESS_LOG_PATH

/home/ma-user/ws/llm_train/AscendSpeed/saved_dir_for_output/plog

保存训练过程中记录的程序堆栈信息日志 PLOG 文件。示例中,默认保存在“saved_dir_for_output/plog”文件夹下。如果用户需要修改,可添加并自定义该变量。

对于Yi系列模型、ChatGLMv3-6B和Qwen系列模型,还需要手动修改训练参数和tokenizer文件,具体请参见训练tokenizer文件说明

support.huaweicloud.com/bestpractice-modelarts/modelarts_10_3158.html