AI开发平台MODELARTS-训练启动脚本说明和参数配置:模型推荐的参数与NPU卡数设置

时间：2025-01-03 09:39:13

AI开发平台MODELARTS

模型推荐的参数与NPU卡数设置

不同模型推荐的训练参数和计算规格要求如表2所示。规格与节点数中的1*节点 & 4*Ascend表示单机4卡，以此类推。

表2 不同模型推荐的参数与NPU卡数设置
序号	支持模型	支持模型参数量	训练策略类型	文本序列长度（SEQ_LEN）	并行参数设置	micro batch size (MBS)	规格与节点数
1	llama2	llama2-7b	pretrain/sft	4096	TP(tensor model parallel size)=1 PP(pipeline model parallel size)=4	1	1节点 & 8Ascend
			lora	4096	TP(tensor model parallel size)=1 PP(pipeline model parallel size)=4	2	1节点 & 8Ascend
			pretrain/sft	8192	TP(tensor model parallel size)=2 PP(pipeline model parallel size)=4	1	1节点 & 8Ascend
			lora	8192	TP(tensor model parallel size)=2 PP(pipeline model parallel size)=4	2	1节点 & 8Ascend
2		llama2-13b	pretrain/sft	4096	TP(tensor model parallel size)=8 PP(pipeline model parallel size)=1	4	1节点 & 8Ascend
			lora	4096	TP(tensor model parallel size)=8 PP(pipeline model parallel size)=1	4	1节点 & 8Ascend
			pretrain/sft	8192	TP(tensor model parallel size)=8 PP(pipeline model parallel size)=1	2	1节点 & 8Ascend
			lora	8192	TP(tensor model parallel size)=8 PP(pipeline model parallel size)=1	2	1节点 & 8Ascend
3		llama2-70b	pretrain/sft	4096	TP(tensor model parallel size)=8 PP(pipeline model parallel size)=4	1	4节点 & 8Ascend
			lora	4096	TP(tensor model parallel size)=8 PP(pipeline model parallel size)=4	2	4节点 & 8Ascend
			pretrain/sft	8192	TP(tensor model parallel size)=8 PP(pipeline model parallel size)=8	1	8节点 & 8Ascend
			lora	8192	TP(tensor model parallel size)=8 PP(pipeline model parallel size)=4	1	4节点 & 8Ascend
4	llama3	llama3-8b	pretrain/sft	4096	TP(tensor model parallel size)=4 PP(pipeline model parallel size)=1	2	1节点 & 8Ascend
			lora	4096	TP(tensor model parallel size)=4 PP(pipeline model parallel size)=1	4	1节点 & 8Ascend
			pretrain/sft	8192	TP(tensor model parallel size)=4 PP(pipeline model parallel size)=1	1	1节点 & 8Ascend
			lora	8192	TP(tensor model parallel size)=4 PP(pipeline model parallel size)=1	2	1节点 & 8Ascend
5		llama3-70b	pretrain/sft	4096	TP(tensor model parallel size)=8 PP(pipeline model parallel size)=4	1	4节点 & 8Ascend
			lora	4096	TP(tensor model parallel size)=8 PP(pipeline model parallel size)=4	2	4节点 & 8Ascend
			pretrain/sft	8192	TP(tensor model parallel size)=8 PP(pipeline model parallel size)=8	1	8节点 & 8Ascend
			lora	8192	TP(tensor model parallel size)=8 PP(pipeline model parallel size)=4	1	4节点 & 8Ascend
6	Qwen	qwen-7b	pretrain/sft	4096	TP(tensor model parallel size)=4 PP(pipeline model parallel size)=1	2	1节点 & 8Ascend
			lora	4096	TP(tensor model parallel size)=4 PP(pipeline model parallel size)=1	4	1节点 & 8Ascend
			pretrain/sft	8192	TP(tensor model parallel size)=4 PP(pipeline model parallel size)=1	1	1节点 & 8Ascend
			lora	8192	TP(tensor model parallel size)=4 PP(pipeline model parallel size)=1	2	1节点 & 8Ascend
7		qwen-14b	pretrain/sft	4096	TP(tensor model parallel size)=4 PP(pipeline model parallel size)=2	2	1节点 & 8Ascend
			lora	4096	TP(tensor model parallel size)=4 PP(pipeline model parallel size)=1	2	1节点 & 8Ascend
			pretrain/sft	8192	TP(tensor model parallel size)=4 PP(pipeline model parallel size)=2	1	1节点 & 8Ascend
			lora	8192	TP(tensor model parallel size)=4 PP(pipeline model parallel size)=2	2	1节点 & 8Ascend
8		qwen-72b	pretrain/sft	4096	TP(tensor model parallel size)=8 PP(pipeline model parallel size)=4	1	4节点 & 8Ascend
			lora	4096	TP(tensor model parallel size)=8 PP(pipeline model parallel size)=4	2	4节点 & 8Ascend
			pretrain/sft	8192	TP(tensor model parallel size)=8 PP(pipeline model parallel size)=8	1	8节点 & 8Ascend
			lora	8192	TP(tensor model parallel size)=8 PP(pipeline model parallel size)=4	1	4节点 & 8Ascend
9	Qwen1.5	qwen1.5-7b	pretrain/sft	4096	TP(tensor model parallel size)=1 PP(pipeline model parallel size)=4	1	1节点 & 8Ascend
			lora	4096	TP(tensor model parallel size)=1 PP(pipeline model parallel size)=4	2	1节点 & 8Ascend
			pretrain/sft	8192	TP(tensor model parallel size)=4 PP(pipeline model parallel size)=1	1	1节点 & 8Ascend
			lora	8192	TP(tensor model parallel size)=1 PP(pipeline model parallel size)=4	1	1节点 & 8Ascend
10		qwen1.5-14b	pretrain/sft	4096	TP(tensor model parallel size)=8 PP(pipeline model parallel size)=1	4	1节点 & 8Ascend
			lora	4096	TP(tensor model parallel size)=4 PP(pipeline model parallel size)=1	4	1节点 & 8Ascend
			pretrain/sft	8192	TP(tensor model parallel size)=8 PP(pipeline model parallel size)=1	2	1节点 & 8Ascend
			lora	8192	TP(tensor model parallel size)=8 PP(pipeline model parallel size)=1	2	1节点 & 8Ascend
11		qwen1.5-32b	pretrain/sft	4096	TP(tensor model parallel size)=8 PP(pipeline model parallel size)=2	2	2节点 & 8Ascend
			lora	4096	TP(tensor model parallel size)=8 PP(pipeline model parallel size)=2	4	2节点 & 8Ascend
			pretrain/sft	8192	TP(tensor model parallel size)=8 PP(pipeline model parallel size)=2	1	2节点 & 8Ascend
			lora	8192	TP(tensor model parallel size)=8 PP(pipeline model parallel size)=2	2	2节点 & 8Ascend
12		qwen1.5-72b	pretrain/sft	4096	TP(tensor model parallel size)=8 PP(pipeline model parallel size)=4	1	4节点 & 8Ascend
			lora	4096	TP(tensor model parallel size)=8 PP(pipeline model parallel size)=4	2	4节点 & 8Ascend
			pretrain/sft	8192	TP(tensor model parallel size)=8 PP(pipeline model parallel size)=8	1	8节点 & 8Ascend
			lora	8192	TP(tensor model parallel size)=8 PP(pipeline model parallel size)=4	1	4节点 & 8Ascend
13	Yi	yi-6b	pretrain/sft	4096	TP(tensor model parallel size)=1 PP(pipeline model parallel size)=4	1	1节点 & 8Ascend
			lora	4096	TP(tensor model parallel size)=1 PP(pipeline model parallel size)=4	2	1节点 & 8Ascend
			pretrain/sft	8192	TP(tensor model parallel size)=2 PP(pipeline model parallel size)=2	1	1节点 & 8Ascend
			lora	8192	TP(tensor model parallel size)=1 PP(pipeline model parallel size)=4	1	1节点 & 8Ascend
14		yi-34b	pretrain/sft	4096	TP(tensor model parallel size)=4 PP(pipeline model parallel size)=4	1	2节点 & 8Ascend
			lora	4096	TP(tensor model parallel size)=4 PP(pipeline model parallel size)=4	2	2节点 & 8Ascend
			pretrain/sft	8192	TP(tensor model parallel size)=8 PP(pipeline model parallel size)=4	1	4节点 & 8Ascend
			lora	8192	TP(tensor model parallel size)=8 PP(pipeline model parallel size)=4	2	4节点 & 8Ascend
15	ChatGLMv3	glm3-6b	pretrain/sft	4096	TP(tensor model parallel size)=1 PP(pipeline model parallel size)=2	1	1节点 & 4Ascend
			lora	4096	TP(tensor model parallel size)=1 PP(pipeline model parallel size)=2	2	1节点 & 4Ascend
			pretrain/sft	8192	TP(tensor model parallel size)=1 PP(pipeline model parallel size)=4	1	1节点 & 4Ascend
			lora	8192	TP(tensor model parallel size)=1 PP(pipeline model parallel size)=2	1	1节点 & 4Ascend
16	Baichuan2	baichuan2-13b	pretrain/sft	4096	TP(tensor model parallel size)=8 PP(pipeline model parallel size)=1	2	1节点 & 8Ascend
			lora	4096	TP(tensor model parallel size)=8 PP(pipeline model parallel size)=1	4	1节点 & 8Ascend
			pretrain/sft	8192	TP(tensor model parallel size)=8 PP(pipeline model parallel size)=2	1	1节点 & 8Ascend
			lora	8192	TP(tensor model parallel size)=8 PP(pipeline model parallel size)=1	1	2节点 & 8Ascend
17	Qwen2	qwen2-0.5b	pretrain/sft	4096	TP(tensor model parallel size)=1 PP(pipeline model parallel size)=1	2	1节点 & 4Ascend
			lora	4096	TP(tensor model parallel size)=1 PP(pipeline model parallel size)=1	2	1节点 & 4Ascend
			pretrain/sft	8192	TP(tensor model parallel size)=1 PP(pipeline model parallel size)=1	1	1节点 & 4Ascend
			lora	8192	TP(tensor model parallel size)=1 PP(pipeline model parallel size)=1	1	1节点 & 4Ascend
18		qwen2-1.5b	pretrain/sft	4096	TP(tensor model parallel size)=1 PP(pipeline model parallel size)=1	2	1节点 & 4Ascend
			lora	4096	TP(tensor model parallel size)=1 PP(pipeline model parallel size)=1	2	1节点 & 4Ascend
			pretrain/sft	8192	TP(tensor model parallel size)=1 PP(pipeline model parallel size)=1	1	1节点 & 4Ascend
			lora	8192	TP(tensor model parallel size)=1 PP(pipeline model parallel size)=1	1	1节点 & 4Ascend
19		qwen2-7b	pretrain/sft	4096	TP(tensor model parallel size)=4 PP(pipeline model parallel size)=1	2	1节点 & 8Ascend
			lora	4096	TP(tensor model parallel size)=4 PP(pipeline model parallel size)=1	2	1节点 & 8Ascend
			pretrain/sft	8192	TP(tensor model parallel size)=4 PP(pipeline model parallel size)=2	1	1节点 & 8Ascend
			lora	8192	TP(tensor model parallel size)=4 PP(pipeline model parallel size)=2	2	1节点 & 8Ascend
20		qwen2-72b	pretrain/sft	4096	TP(tensor model parallel size)=8 PP(pipeline model parallel size)=4	1	4节点 & 8Ascend
			lora	4096	TP(tensor model parallel size)=8 PP(pipeline model parallel size)=4	2	4节点 & 8Ascend
			pretrain/sft	8192	TP(tensor model parallel size)=8 PP(pipeline model parallel size)=8	1	8节点 & 8Ascend
			lora	8192	TP(tensor model parallel size)=8 PP(pipeline model parallel size)=8	1	8节点 & 8Ascend
21	GLMv4	glm4-9b	pretrain/sft	4096	TP(tensor model parallel size)=1 PP(pipeline model parallel size)=4	1	1节点 & 8Ascend
			lora	4096	TP(tensor model parallel size)=1 PP(pipeline model parallel size)=2	1	1节点 & 4Ascend
			pretrain/sft	8192	TP(tensor model parallel size)=2 PP(pipeline model parallel size)=2	1	1节点 & 8Ascend
			lora	8192	TP(tensor model parallel size)=2 PP(pipeline model parallel size)=1	1	1节点 & 4Ascend
22	mistral	mistral-7b	pretrain/sft	4096	TP(tensor model parallel size)=1 PP(pipeline model parallel size)=4	1	1节点 & 8Ascend
22	mistral	mistral-7b	lora	4096	TP(tensor model parallel size)=1 PP(pipeline model parallel size)=4	2	1节点 & 8Ascend
23	mixtral	mixtral-8x7b	pretrain/sft	4096	TP(tensor model parallel size)=2 PP(pipeline model parallel size)=8	1	2节点 & 8Ascend
23	mixtral	mixtral-8x7b	pretrain/sft	8192	TP(tensor model parallel size)=2 PP(pipeline model parallel size)=8	1	2节点 & 8Ascend
24	llama3.1	llama3.1-8b	pretrain/sft	4096	TP(tensor model parallel size)=4 PP(pipeline model parallel size)=1	2	1节点 & 8Ascend
			lora	4096	TP(tensor model parallel size)=4 PP(pipeline model parallel size)=1	4	1节点 & 8Ascend
			pretrain/sft	8192	TP(tensor model parallel size)=4 PP(pipeline model parallel size)=1	1	1节点 & 8Ascend
			lora	8192	TP(tensor model parallel size)=4 PP(pipeline model parallel size)=1	2	1节点 & 8Ascend
25		llama3.1-70b	pretrain/sft	4096	TP(tensor model parallel size)=8 PP(pipeline model parallel size)=4	1	4节点 & 8Ascend
			lora	4096	TP(tensor model parallel size)=8 PP(pipeline model parallel size)=2	4	2节点 & 8Ascend
			pretrain/sft	8192	TP(tensor model parallel size)=8 PP(pipeline model parallel size)=8	1	8节点 & 8Ascend
			lora	8192	TP(tensor model parallel size)=8 PP(pipeline model parallel size)=2	2	2节点 & 8Ascend
26	Qwen2.5	qwen2.5-0.5b	pretrain/sft	4096	TP(tensor model parallel size)=1 PP(pipeline model parallel size)=1	1	1节点 & 4Ascend
			lora	4096	TP(tensor model parallel size)=1 PP(pipeline model parallel size)=1	2	1节点 & 4Ascend
			pretrain/sft	8192	TP(tensor model parallel size)=1 PP(pipeline model parallel size)=1	1	1节点 & 4Ascend
			lora	8192	TP(tensor model parallel size)=1 PP(pipeline model parallel size)=1	1	1节点 & 4Ascend
27		qwen2.5-7b	pretrain/sft	4096	TP(tensor model parallel size)=4 PP(pipeline model parallel size)=1	2	1节点 & 8Ascend
			lora	4096	TP(tensor model parallel size)=4 PP(pipeline model parallel size)=1	4	1节点 & 8Ascend
			pretrain/sft	8192	TP(tensor model parallel size)=4 PP(pipeline model parallel size)=2	1	1节点 & 8Ascend
			lora	8192	TP(tensor model parallel size)=4 PP(pipeline model parallel size)=2	2	1节点 & 8Ascend
28		qwen2.5-14b	pretrain/sft	4096	TP(tensor model parallel size)=8 PP(pipeline model parallel size)=1	4	1节点 & 8Ascend
			lora	4096	TP(tensor model parallel size)=4 PP(pipeline model parallel size)=1	4	1节点 & 8Ascend
			pretrain/sft	8192	TP(tensor model parallel size)=8 PP(pipeline model parallel size)=1	2	1节点 & 8Ascend
			lora	8192	TP(tensor model parallel size)=8 PP(pipeline model parallel size)=1	2	1节点 & 8Ascend
29		qwen2.5-32b	pretrain/sft	4096	TP(tensor model parallel size)=8 PP(pipeline model parallel size)=2	2	2节点 & 8Ascend
			lora	4096	TP(tensor model parallel size)=8 PP(pipeline model parallel size)=2	4	2节点 & 8Ascend
			pretrain/sft	8192	TP(tensor model parallel size)=8 PP(pipeline model parallel size)=2	1	2节点 & 8Ascend
			lora	8192	TP(tensor model parallel size)=8 PP(pipeline model parallel size)=2	2	2节点 & 8Ascend
30		qwen2.5-72b	pretrain/sft	4096	TP(tensor model parallel size)=8 PP(pipeline model parallel size)=4	1	4节点 & 8Ascend
			lora	4096	TP(tensor model parallel size)=8 PP(pipeline model parallel size)=4	4	4节点 & 8Ascend
			pretrain/sft	8192	TP(tensor model parallel size)=8 PP(pipeline model parallel size)=8	1	8节点 & 8Ascend
			lora	8192	TP(tensor model parallel size)=8 PP(pipeline model parallel size)=4	2	4节点 & 8Ascend
31	llama3.2	llama3.2-1b	pretrain/sft	4096	TP(tensor model parallel size)=1 PP(pipeline model parallel size)=1	2	1节点 & 4Ascend
			lora	4096	TP(tensor model parallel size)=1 PP(pipeline model parallel size)=1	2	1节点 & 4Ascend
			pretrain/sft	8192	TP(tensor model parallel size)=1 PP(pipeline model parallel size)=1	1	1节点 & 4Ascend
			lora	8192	TP(tensor model parallel size)=1 PP(pipeline model parallel size)=1	1	1节点 & 4Ascend
32		llama3.2-3b	pretrain/sft	4096	TP(tensor model parallel size)=1 PP(pipeline model parallel size)=2	2	1节点 & 4Ascend
			lora	4096	TP(tensor model parallel size)=1 PP(pipeline model parallel size)=1	2	1节点 & 4Ascend
			pretrain/sft	8192	TP(tensor model parallel size)=1 PP(pipeline model parallel size)=2	1	1节点 & 4Ascend
			lora	8192	TP(tensor model parallel size)=1 PP(pipeline model parallel size)=1	1	1节点 & 4Ascend