AI开发平台MODELARTS-在Notebook调试环境中部署推理服务:附录：基于vLLM（v0.3.2）不同模型推理支持的max-model-len长度说明

时间：2025-03-12 09:40:08

AI开发平台MODELARTS

附录：基于vLLM（v0.3.2）不同模型推理支持的max-model-len长度说明

基于vLLM（v0.3.2）部署推理服务时，不同模型推理支持的max-model-len长度说明如下面的表格所示。如需达到以下值，需要将--gpu-memory-utilization设为0.9，qwen系列、qwen1.5系列、llama3系列模型还需打开词表切分配置export USE_VOCAB_PARALLEL=1。

序号	模型名称	4*64GB	8*32GB
1	qwen1.5-72b	24576	8192
2	qwen-72b	24576	8192
3	llama3-70b	32768	8192
4	llama2-70b	98304	32768
6	llama-65b	24576	8192

序号	模型名称	2*64GB	4*32GB
1	qwen1.5-32b	65536	24576

序号	模型名称	1*64GB	1*32GB
1	qwen1.5-7b	49152	16384
2	qwen-7b	49152	16384
3	llama3-8b	98304	32768
4	llama2-7b	126976	16384
5	chatglm3-6b	126976	65536
6	chatglm2-6b	126976	65536

序号	模型名称	1*64GB	2*32GB
1	qwen1.5-14b	24576	24576
2	qwen-14b	24576	24576
3	llama2-13b	24576	24576

说明：机器型号规格以卡数*显存大小为单位，如4*64GB代表4张64GB显存的NPU卡。

上一篇：AI开发平台MODELARTS-在Notebook调试环境中部署推理服务:Step6 推理服务的高阶配置（可选）

下一篇：AI开发平台MODELARTS-在Notebook调试环境中部署推理服务:Step3 配置NPU环境

开年采购季抽奖赢万元免单

立即前往

续费同价 L实例 2核2G 4M

98元/年

企业专享 X实例 2核4G 5M

198元/年

热门域名 1元随心购

1元/年起

AI开发平台MODELARTS-在Notebook调试环境中部署推理服务:附录：基于vLLM（v0.3.2）不同模型推理支持的max-model-len长度说明

意见反馈

0/200

提交取消

提交成功！非常感谢您的反馈，我们会继续努力做到更好反馈提交失败！请稍后重试！

AI开发平台MODELARTS-在Notebook调试环境中部署推理服务:附录：基于vLLM（v0.3.2）不同模型推理支持的max-model-len长度说明

AI开发平台MODELARTS-在Notebook调试环境中部署推理服务:附录：基于vLLM（v0.3.2）不同模型推理支持的max-model-len长度说明

附录：基于vLLM（v0.3.2）不同模型推理支持的max-model-len长度说明

7*24

备案

专业服务

退订

建议反馈

售前咨询热线