华为云首页用户手册

AI开发平台MODELARTS-DeepSeek蒸馏版模型基于ModelArts Lite Server适配vLLM的推理部署指导:资源规划

AI开发平台MODELARTS-DeepSeek蒸馏版模型基于ModelArts Lite Server适配vLLM的推理部署指导:资源规划

时间：2025-03-12 09:40:18

AI开发平台MODELARTS

资源规划

本方案部署支持用BF16量化权重，使用的Ascend Snt9B资源规格见下表。

以下值是在gpu-memory-utilization为0.9时测试得出，为服务部署所需的最小昇腾卡数及该卡数下推荐的最大max-model-len长度，不代表最佳性能。

表1 支持最小卡数和最大序列说明
序号	模型名	32GB显存		64GB显存
序号	模型名	最小卡数	最大序列(K) max-model-len	最小卡数	最大序列(K) max-model-len
1	DeepSeek-R1-Distill-Qwen-1.5B	1	32	1	32
2	DeepSeek-R1-Distill-Qwen-7B	1	32	1	32
3	DeepSeek-R1-Distill-Llama-8B	1	32	1	128
4	DeepSeek-R1-Distill-Qwen-14B	2	32	1	32
5	DeepSeek-R1-Distill-Qwen-32B	4	32	2	64
6	DeepSeek-R1-Distill-Llama-70B	8	32	4	64

上一篇：AI开发平台MODELARTS-DeepSeek蒸馏版模型基于ModelArts Lite Server适配vLLM的推理部署指导:支持的模型列表和权重文件

下一篇：AI开发平台MODELARTS-DeepSeek蒸馏版模型基于ModelArts Lite Server适配vLLM的推理部署指导:支持的模型列表和权重文件

开年采购季抽奖赢万元免单

立即前往

续费同价 L实例 2核2G 4M

98元/年

企业专享 X实例 2核4G 5M

198元/年

热门域名 1元随心购

1元/年起

AI开发平台MODELARTS-DeepSeek蒸馏版模型基于ModelArts Lite Server适配vLLM的推理部署指导:资源规划

意见反馈

0/200

提交成功！非常感谢您的反馈，我们会继续努力做到更好反馈提交失败！请稍后重试！

推荐文章

解决方案
相关专题