华为云首页用户手册

AI开发平台MODELARTS-部署推理服务:附录：基于vLLM（v0.3.2）不同模型推理支持的max-model-len长度说明

AI开发平台MODELARTS-部署推理服务:附录：基于vLLM（v0.3.2）不同模型推理支持的max-model-len长度说明

时间：2025-01-03 09:38:45

AI开发平台MODELARTS

附录：基于vLLM（v0.3.2）不同模型推理支持的max-model-len长度说明

基于vLLM（v0.3.2）部署推理服务时，不同模型推理支持的max-model-len长度说明如下面的表格所示。如需达到以下值，需要将--gpu-memory-utilization设为0.9，qwen系列、qwen1.5系列、llama3系列模型还需打开词表切分配置export USE_VOCAB_PARALLEL=1。

序号	模型名称	4*64GB	8*32GB
1	qwen1.5-72b	24576	8192
2	qwen-72b	24576	8192
3	llama3-70b	32768	8192
4	llama2-70b	98304	32768
6	llama-65b	24576	8192

序号	模型名称	2*64GB	4*32GB
1	qwen1.5-32b	65536	24576

序号	模型名称	1*64GB	1*32GB
1	qwen1.5-7b	49152	16384
2	qwen-7b	49152	16384
3	llama3-8b	98304	32768
4	llama2-7b	126976	16384
5	chatglm3-6b	126976	65536
6	chatglm2-6b	126976	65536

序号	模型名称	1*64GB	2*32GB
1	qwen1.5-14b	24576	24576
2	qwen-14b	24576	24576
3	llama2-13b	24576	24576

说明：机器型号规格以卡数*显存大小为单位，如4*64GB代表4张64GB显存的NPU卡。

上一篇：AI开发平台MODELARTS-部署推理服务:Step6 启动推理服务

下一篇：AI开发平台MODELARTS-部署推理服务:Step6 启动推理服务

新客秒杀 2核2G 3M L实例

68元/年

普惠上云领千元上云礼券

立即前往

企业专享 X实例 4核8G 5M

888元/年

热门域名 1元随心购

1元/年起

AI开发平台MODELARTS-部署推理服务:附录：基于vLLM（v0.3.2）不同模型推理支持的max-model-len长度说明

意见反馈

0/200

提交成功！非常感谢您的反馈，我们会继续努力做到更好反馈提交失败！请稍后重试！

推荐文章

解决方案
相关专题