AI开发平台ModelArts-附录：基于vLLM不同模型推理支持最小卡数和最大序列说明

时间：2025-02-12 15:14:08

AI开发平台ModelArts

附录：基于vLLM不同模型推理支持最小卡数和最大序列说明

基于vLLM（v0.5.0）部署推理服务时，不同模型推理支持的最小昇腾卡数和对应卡数下的max-model-len长度说明，如下面的表格所示。

以下值是在gpu-memory-utilization为0.9时测试得出，为服务部署所需的最小昇腾卡数及该卡数下推荐的最大max-model-len长度，不代表最佳性能。

以llama2-13b为例，NPU卡显存为32GB时，至少需要2张卡运行推理业务，2张卡运行的情况下，推荐的最大序列max-model-len长度最大是16K，此处的单位K是1024，即16*1024。

测试方法：gpu-memory-utilization为0.9下，以4k、8k、16k递增max-model-len，直至达到能执行静态benchmark下的最大max-model-len。

表1 基于vLLM不同模型推理支持最小卡数和最大序列说明
序号	模型名	32GB显存		64GB显存
序号	模型名	最小卡数	最大序列(K) max-model-len	最小卡数	最大序列(K) max-model-len
1	llama-7b	1	16	1	32
2	llama-13b	2	16	1	16
3	llama-65b	8	16	4	16
4	llama2-7b	1	16	1	32
5	llama2-13b	2	16	1	16
6	llama2-70b	8	32	4	64
7	llama3-8b	1	32	1	128
8	llama3-70b	8	32	4	64
9	qwen-7b	1	8	1	32
10	qwen-14b	2	16	1	16
11	qwen-72b	8	8	4	16
12	qwen1.5-0.5b	1	128	1	256
13	qwen1.5-7b	1	8	1	32
14	qwen1.5-1.8b	1	64	1	128
15	qwen1.5-14b	2	16	1	16
16	qwen1.5-32b	4	32	2	64
17	qwen1.5-72b	8	8	4	16
18	qwen1.5-110b	--		8	128
19	qwen2-0.5b	1	128	1	256
20	qwen2-1.5b	1	64	1	128
21	qwen2-7b	1	8	1	32
22	qwen2-72b	8	32	4	64
23	chatglm2-6b	1	64	1	128
24	chatglm3-6b	1	64	1	128
25	glm-4-9b	1	32	1	128
26	baichuan2-7b	1	8	1	32
27	baichuan2-13b	2	4	1	4
28	yi-6b	1	64	1	128
29	yi-9b	1	32	1	64
30	yi-34b	4	32	2	64
31	deepseek-llm-7b	1	16	1	32
32	deepseek-coder-instruct-33b	4	32	2	64
33	deepseek-llm-67b	8	32	4	64
34	mistral-7b	1	32	1	128
35	mixtral-8x7b	4	8	2	32
36	gemma-2b	1	64	1	128
37	gemma-7b	1	8	1	32
38	falcon-11b	1	8	1	64