华为云首页用户手册

AI开发平台ModelArts-在Notebook调试环境中部署推理服务:附录：基于vLLM（v0.3.2）不同模型推理支持的max-model-len长度说明

AI开发平台ModelArts-在Notebook调试环境中部署推理服务:附录：基于vLLM（v0.3.2）不同模型推理支持的max-model-len长度说明

时间：2025-02-12 15:14:08

AI开发平台ModelArts

附录：基于vLLM（v0.3.2）不同模型推理支持的max-model-len长度说明

基于vLLM（v0.5.0）部署推理服务时，不同模型推理支持的max-model-len长度说明如下面的表格所示。如需达到以下值，需要将--gpu-memory-utilization设为0.9。

表2 不同模型推理支持的max-model-len长度
模型名	280T		313T
模型名	最小卡数	最大序列(K)	最小卡数	最大序列(K)
llama-7b	1	16	1	32
llama-13b	2	16	1	16
llama-65b	8	16	4	16
llama2-7b	1	16	1	32
llama2-13b	2	16	1	16
llama2-70b	8	32	4	64
llama3-8b	1	32	1	128
llama3-70b	8	32	4	64
qwen-7b	1	8	1	32
qwen-14b	2	16	1	16
qwen-72b	8	8	4	16
qwen1.5-0.5b	1	128	1	256
qwen1.5-7b	1	8	1	32
qwen1.5-1.8b	1	64	1	128
qwen1.5-14b	2	16	1	16
qwen1.5-32b	4	32	2	64
qwen1.5-72b	8	8	4	16
qwen1.5-110b	oom		8	128
qwen2-0.5b	1	128	1	256
qwen2-1.5b	1	64	1	128
qwen2-7b	1	32	1	64
qwen2-72b	8	32	4	64
chatglm2-6b	1	64	1	128
chatglm3-6b	1	64	1	128
glm-4-9b	1	32	1	128
baichuan-7b	1	16	1	32
baichuan-13b	2	4	1	4
baichuan2-7b	1	8	1	32
baichuan2-13b	2	4	1	4
yi-6b	1	64	1	128
yi-9b	1	32	1	64
yi-34b	4	32	2	64
deepseek-llm-7b	1	16	1	32
deepseek-coder-instruct-33b	4	32	2	64
deepseek-llm-67b	8	32	4	64
mistral-7b	1	32	1	128
mixtral-8x7b	4	8	2	32
gemma-2b	1	64	1	128
gemma-7b	1	8	1	32

说明：机器型号规格以卡数*显存大小为单位，如4*64GB代表4张64GB显存的NPU卡。

上一篇：AI开发平台ModelArts-在Notebook调试环境中部署推理服务:Step3 启动推理服务

下一篇：AI开发平台ModelArts-在Notebook调试环境中部署推理服务:Step2 准备权重文件

新客秒杀 2核2G 3M L实例

68元/年

普惠上云领千元上云礼券

立即前往

企业专享 X实例 4核8G 5M

888元/年

热门域名 1元随心购

1元/年起

AI开发平台ModelArts-在Notebook调试环境中部署推理服务:附录：基于vLLM（v0.3.2）不同模型推理支持的max-model-len长度说明

意见反馈

0/200

提交成功！非常感谢您的反馈，我们会继续努力做到更好反馈提交失败！请稍后重试！

推荐文章

解决方案
相关专题