华为云首页用户手册

AI开发平台MODELARTS-预训练超参配置

AI开发平台MODELARTS-预训练超参配置

时间：2024-04-30 18:09:27

AI开发平台MODELARTS

预训练超参配置

本章节介绍预训练前的超参配置，可以根据实际需要修改。

预训练脚本pretrain-llama2-13b.sh，存放在AscendCloud-3rdLLM-6.3.902-xxx/llm_train/AscendSpeed/scripts/llama2目录下。训练前，可以根据实际需要修改超参配置。

表1 超参配置
参数	值	参数说明
DATA_PATH	${MA_JOB_DIR}/6.3.902-Ascend/datasets/alpaca/llama2-13B/alpaca_text_document	必填。训练时指定的输入数据路径。一般为数据地址/处理后的数据前缀名，不加文件类型后缀。请根据实际规划修改。
TOKENIZER_PATH	${MA_JOB_DIR}/6.3.902-Ascend/tokenizers/llama2-13b-hf	必填。tokenizer保存地址。
SAVE_PATH	$PWD/ckpt	中间保存结果，包含训练日志。
SAVE_CKPT_PATH	${SAVE_PATH}/ckpt-llama2-13b	必填。训练ckpt保存地址。
MODEL_TYPE	13B	模型加载类型，默认为13B。
TRAIN_ITERS	2000	训练迭代周期。根据实际需要修改。
MBS	4	流水线并行中一个micro batch所处理的样本量。在流水线并行中，为了减少气泡时间，会将一个step的数据切分成多个micro batch。默认值4。
GBS	64	训练中所有机器一个step所处理的样本量。影响每一次训练迭代的时长，建议值单机64，双机128。
TP	8	张量并行。
PP	1	流水线并行。
lr	0.00015	学习率，非必填，默认值3.0e-4
RUN_TYPE	pretrain	训练脚本类型：pretrain。

父主题： 预训练

上一篇：AI开发平台MODELARTS-LoRA微调权重合并及转换:Step1 合并LoRA微调训练生成的权重文件

下一篇：AI开发平台MODELARTS-LoRA微调任务:创建LoRA微调训练任务

新客秒杀 2核2G 3M L实例

68元/年

普惠上云领千元上云礼券

立即前往

企业专享 X实例 4核8G 5M

888元/年

热门域名 1元随心购

1元/年起

AI开发平台MODELARTS-预训练超参配置

意见反馈

0/200

提交成功！非常感谢您的反馈，我们会继续努力做到更好反馈提交失败！请稍后重试！

推荐文章

解决方案
相关专题