AI开发平台MODELARTS-DeepSeek蒸馏版模型基于ModelArts Lite Server适配vLLM的推理部署指导:资源规划
资源规划
本方案部署支持用BF16量化权重,使用的Ascend Snt9B资源规格见下表。
以下值是在gpu-memory-utilization为0.9时测试得出,为服务部署所需的最小昇腾卡数及该卡数下推荐的最大max-model-len长度,不代表最佳性能。
序号 |
模型名 |
32GB显存 |
64GB显存 |
||
---|---|---|---|---|---|
最小卡数 |
最大序列(K) max-model-len |
最小卡数 |
最大序列(K) max-model-len |
||
1 |
DeepSeek-R1-Distill-Qwen-1.5B |
1 |
32 |
1 |
32 |
2 |
DeepSeek-R1-Distill-Qwen-7B |
1 |
32 |
1 |
32 |
3 |
DeepSeek-R1-Distill-Llama-8B |
1 |
32 |
1 |
128 |
4 |
DeepSeek-R1-Distill-Qwen-14B |
2 |
32 |
1 |
32 |
5 |
DeepSeek-R1-Distill-Qwen-32B |
4 |
32 |
2 |
64 |
6 |
DeepSeek-R1-Distill-Llama-70B |
8 |
32 |
4 |
64 |