AI开发平台MODELARTS-DeepSeek蒸馏版模型基于ModelArts Lite Server适配vLLM的推理部署指导:资源规划

时间:2025-03-12 09:40:18

资源规划

本方案部署支持用BF16量化权重,使用的Ascend Snt9B资源规格见下表。

以下值是在gpu-memory-utilization为0.9时测试得出,为服务部署所需的最小昇腾卡数及该卡数下推荐的最大max-model-len长度,不代表最佳性能。

表1 支持最小卡数和最大序列说明

序号

模型名

32GB显存

64GB显存

最小卡数

最大序列(K)

max-model-len

最小卡数

最大序列(K)

max-model-len

1

DeepSeek-R1-Distill-Qwen-1.5B

1

32

1

32

2

DeepSeek-R1-Distill-Qwen-7B

1

32

1

32

3

DeepSeek-R1-Distill-Llama-8B

1

32

1

128

4

DeepSeek-R1-Distill-Qwen-14B

2

32

1

32

5

DeepSeek-R1-Distill-Qwen-32B

4

32

2

64

6

DeepSeek-R1-Distill-Llama-70B

8

32

4

64

support.huaweicloud.com/bestpractice-modelarts/modelarts_ds_infer_5901001.html