AI开发平台MODELARTS-模型NPU卡数、梯度累积值取值表

时间：2024-11-12 16:42:41

AI开发平台MODELARTS

模型NPU卡数、梯度累积值取值表

不同模型推荐的训练参数和计算规格要求如表1所示。规格与节点数中的1*节点 & 4*Ascend表示单机4卡，以此类推。

表1 NPU卡数、加速框架、梯度配置取值表
模型	模型参数量	训练类型	序列长度cutoff_len	梯度累积值	优化工具(Deepspeed)	规格与节点数
llama2	7B	lora/dpo	4096/8192	gradient_accumulation_steps: 8	ZeRO-1	1节点 & 1Ascend
	7B	sft	4096/8192	gradient_accumulation_steps: 8	ZeRO-2	1节点 & 8Ascend
	13B	lora/dpo	4096/8192	gradient_accumulation_steps: 8	ZeRO-2	1节点 & 1Ascend
	13B	sft	4096/8192	gradient_accumulation_steps: 8	ZeRO-3	1节点 & 8Ascend
	70B	lora/dpo	4096	gradient_accumulation_steps: 8	ZeRO-3	2节点 & 8Ascend
		lora/dpo	8192	gradient_accumulation_steps: 8	ZeRO-3-Offload	2节点 & 8Ascend
		sft	4096/8192	gradient_accumulation_steps: 4	ZeRO-3-Offload	4节点 & 8Ascend
llama3	70B	lora/dpo	4096/8192	gradient_accumulation_steps: 8	ZeRO-3	2节点 & 8Ascend
	70B	sft	4096/8192	gradient_accumulation_steps: 4	ZeRO-3-Offload	4节点 & 8Ascend
	8B	lora/dpo	4096/8192	gradient_accumulation_steps: 8	ZeRO-2	1节点 & 1Ascend
	8B	sft	4096/8192	gradient_accumulation_steps: 8	ZeRO-2	1节点 & 8Ascend
llama3.1	8B	lora	4096/8192	gradient_accumulation_steps: 8	ZeRO-1	1节点 & 1Ascend
	8B	sft	4096/8192	gradient_accumulation_steps: 8	ZeRO-2	1节点 & 8Ascend
	70B	lora/dpo	4096	gradient_accumulation_steps: 8	ZeRO-3	2节点 & 8Ascend
		lora/dpo	8192	gradient_accumulation_steps: 8	ZeRO-3-Offload	2节点 & 8Ascend
		sft	4096/8192	gradient_accumulation_steps: 4	ZeRO-3-Offload	4节点 & 8Ascend
Qwen2	72B	lora/dpo	4096	gradient_accumulation_steps: 8	ZeRO-3	2节点 & 8Ascend
		lora/dpo	8192	gradient_accumulation_steps: 8	ZeRO-3-Offload	2节点 & 8Ascend
		sft	4096/8192	gradient_accumulation_steps: 4	ZeRO-3-Offload	4节点 & 8Ascend
	7B	lora/dpo	4096/8192	gradient_accumulation_steps: 8	ZeRO-0	1节点 & 1Ascend
	7B	sft	4096/8192	gradient_accumulation_steps: 8	ZeRO-2	1节点 & 8Ascend
	0.5/1.5B	lora/sft/dpo	4096/8192	gradient_accumulation_steps: 8	ZeRO-0	1节点 & 1Ascend
Qwen1.5	0.5/1.8B	lora/sft/dpo	4096/8192	gradient_accumulation_steps: 8	ZeRO-0	1节点 & 1Ascend
	4B	lora/dpo	4096/8192	gradient_accumulation_steps: 8	ZeRO-1	1节点 & 1Ascend
	4B	sft	4096/8192	gradient_accumulation_steps: 8	ZeRO-1	1节点 & 4Ascend
	7B	lora/dpo	4096/8192	gradient_accumulation_steps: 8	ZeRO-1	1节点 & 1Ascend
	7B	sft	4096/8192	gradient_accumulation_steps: 8	ZeRO-2	1节点 & 8Ascend
	14B	lora/dpo	4096/8192	gradient_accumulation_steps: 8	ZeRO-3	1节点 & 1Ascend
	14B	sft	4096/8192	gradient_accumulation_steps: 8	ZeRO-3	1节点 & 8Ascend
	32B	lora/dpo	4096/8192	gradient_accumulation_steps: 8	ZeRO-3	1节点 & 4Ascend
		sft	4096	gradient_accumulation_steps: 8	ZeRO-3	2节点 & 8Ascend
		sft	8192	gradient_accumulation_steps: 4	ZeRO-3-Offload	2节点 & 8Ascend
	72B	lora/dpo	4096	gradient_accumulation_steps: 8	ZeRO-3	2节点 & 8Ascend
		lora	8192	gradient_accumulation_steps: 8	ZeRO-3-Offload	2节点 & 8Ascend
		sft	4096/8192	gradient_accumulation_steps: 4	ZeRO-3-Offload	4节点 & 8Ascend
falcon2	11B	lora/dpo	4096/8192	gradient_accumulation_steps: 8	ZeRO-2	1节点 & 1Ascend
falcon2	11B	sft	4096/8192	gradient_accumulation_steps: 8	ZeRO-2	1节点 & 8Ascend
GLM4	9B	lora	4096/8192	gradient_accumulation_steps: 8	ZeRO-2	1节点 & 1Ascend
GLM4	9B	sft	4096/8192	gradient_accumulation_steps: 8	ZeRO-3	1节点 & 8Ascend
Yi	6B	lora/dpo	4096/8192	gradient_accumulation_steps: 8	ZeRO-1	1节点 & 1Ascend
	6B	sft	4096/8192	gradient_accumulation_steps: 8	ZeRO-1	1节点 & 4Ascend
	34B	sft	4096	gradient_accumulation_steps: 8	ZeRO-3	2节点 & 8Ascend
		lora/dpo	4096	gradient_accumulation_steps: 8	ZeRO-3	1节点 & 2Ascend
		sft	8192	gradient_accumulation_steps: 8	ZeRO-3	2节点 & 8Ascend
		lora/dpo	8192	gradient_accumulation_steps: 8	ZeRO-3	1节点 & 4Ascend