AI开发平台MODELARTS-预训练超参配置

时间:2024-04-30 18:09:27

预训练超参配置

本章节介绍预训练前的超参配置,可以根据实际需要修改。

预训练脚本pretrain-llama2-13b.sh,存放在AscendCloud-3rdLLM-6.3.902-xxx/llm_train/AscendSpeed/scripts/llama2目录下。训练前,可以根据实际需要修改超参配置。

表1 超参配置

参数

参数说明

DATA_PATH

${MA_JOB_DIR}/6.3.902-Ascend/datasets/alpaca/llama2-13B/alpaca_text_document

必填。训练时指定的输入数据路径。一般为数据地址/处理后的数据前缀名,不加文件类型后缀。

请根据实际规划修改。

TOKENIZER_PATH

${MA_JOB_DIR}/6.3.902-Ascend/tokenizers/llama2-13b-hf

必填。tokenizer保存地址。

SAVE_PATH

$PWD/ckpt

中间保存结果,包含训练日志。

SAVE_CKPT_PATH

${SAVE_PATH}/ckpt-llama2-13b

必填。训练ckpt保存地址。

MODEL_TYPE

13B

模型加载类型,默认为13B。

TRAIN_ITERS

2000

训练迭代周期。根据实际需要修改。

MBS

4

流水线并行中一个micro batch所处理的样本量。在流水线并行中,为了减少气泡时间,会将一个step的数据切分成多个micro batch。

默认值4。

GBS

64

训练中所有机器一个step所处理的样本量。影响每一次训练迭代的时长,建议值单机64,双机128。

TP

8

张量并行。

PP

1

流水线并行。

lr

0.00015

学习率,非必填,默认值3.0e-4

RUN_TYPE

pretrain

训练脚本类型:pretrain。

support.huaweicloud.com/bestpractice-modelarts/modelarts_10_1813.html