华为云首页用户手册

AI开发平台MODELARTS-LoRA微调超参配置

AI开发平台MODELARTS-LoRA微调超参配置

时间：2024-04-30 18:09:29

AI开发平台MODELARTS LoRA微调训练

LoRA微调超参配置

本章节介绍LoRA微调训练前的超参配置，可以根据实际需要修改。

LoRA微调训练脚本lora-llama2-13b.sh，存放在AscendCloud-3rdLLM-6.3.902/llm_train/AscendSpeed/scripts/llama2/目录下。训练前，可以根据实际需要修改超参配置。

微调任务配置，操作同预训练配置类似，不同点为RUN_TYPE类型不同，以及输入输出路径的配置的不同。

表1 超参配置
参数	值	参数说明
DATA_PATH	/home/ma-user/ws/datasets/alpaca-ft/llama2-13b/alpaca-ft	必填。训练时指定的输入数据路径。一般为数据地址/处理后的数据前缀名，不加文件类型后缀。
TOKENIZER_PATH	/home/ma-user/ws/tokenizers/llama2-13b-hf	必填。tokenizer保存地址。
SAVE_PATH	$PWD/ckpt	中间保存结果，包含训练日志。
SAVE_CKPT_PATH	${SAVE_PATH}/ckpt-llama2-13b-lora	必填。训练ckpt保存地址。
MODEL_PATH	/home/ma-user/ws/weight/llama2-13b-ckpt	必填。加载的权重文件路径。取值二选一：（推荐）上一步LoRA微调权重转换章节中将HuggingFace格式转化为AscendSpeed格式的权重文件。预训练完成后保存的权重文件，即预训练超参配置中的SAVE_CKPT_PATH值。如果使用此权重文件，需要将权重文件的名称改为release，将latest_checkpointed_iteration.txt的内容文件内容改为release，具体参考1和5.3-2。
MODEL_TYPE	13B	模型加载类型。
TRAIN_ITERS	2000	训练迭代周期。根据实际需要修改。
MBS	4	流水线并行中一个micro batch所处理的样本量。在流水线并行中，为了减少气泡时间，会将一个step的数据切分成多个micro batch。非必填，默认值4。
GBS	64	训练中所有机器一个step所处理的样本量。影响每一次训练迭代的时长。建议值单机64，双机128。
TP	8	张量并行。
PP	1	流水线并行。
seq_length	4096	要处理的最大序列长度，默认值2048，建议改为4096。
RUN_TYPE	lora	训练脚本类型：pretrain、sft、lora。此处填写lora，表示LoRA微调训练。

父主题： LoRA微调训练

上一篇：AI开发平台MODELARTS-ChatGLM系列模型基于Standard的的全参微调训练:Step2 准备训练数据

下一篇：AI开发平台MODELARTS-预训练超参配置

新客秒杀 2核2G 3M L实例

68元/年

普惠上云领千元上云礼券

立即前往

企业专享 X实例 4核8G 5M

888元/年

热门域名 1元随心购

1元/年起

AI开发平台MODELARTS-LoRA微调超参配置

意见反馈

0/200

提交成功！非常感谢您的反馈，我们会继续努力做到更好反馈提交失败！请稍后重试！

推荐文章

解决方案
相关专题