AI开发平台MODELARTS-在Notebook调试环境中部署推理服务:附录:基于vLLM(v0.3.2)不同模型推理支持的max-model-len长度说明
附录:基于vLLM(v0.3.2)不同模型推理支持的max-model-len长度说明
基于vLLM(v0.5.0)部署推理服务时,不同模型推理支持的max-model-len长度说明如下面的表格所示。如需达到以下值,需要将--gpu-memory-utilization设为0.9。
模型名 |
280T |
313T |
||
---|---|---|---|---|
最小卡数 |
最大序列(K) |
最小卡数 |
最大序列(K) |
|
llama-7b |
1 |
16 |
1 |
32 |
llama-13b |
2 |
16 |
1 |
16 |
llama-65b |
8 |
16 |
4 |
16 |
llama2-7b |
1 |
16 |
1 |
32 |
llama2-13b |
2 |
16 |
1 |
16 |
llama2-70b |
8 |
32 |
4 |
64 |
llama3-8b |
1 |
32 |
1 |
128 |
llama3-70b |
8 |
32 |
4 |
64 |
qwen-7b |
1 |
8 |
1 |
32 |
qwen-14b |
2 |
16 |
1 |
16 |
qwen-72b |
8 |
8 |
4 |
16 |
qwen1.5-0.5b |
1 |
128 |
1 |
256 |
qwen1.5-7b |
1 |
8 |
1 |
32 |
qwen1.5-1.8b |
1 |
64 |
1 |
128 |
qwen1.5-14b |
2 |
16 |
1 |
16 |
qwen1.5-32b |
4 |
32 |
2 |
64 |
qwen1.5-72b |
8 |
8 |
4 |
16 |
qwen1.5-110b |
oom |
8 |
128 |
|
qwen2-0.5b |
1 |
128 |
1 |
256 |
qwen2-1.5b |
1 |
64 |
1 |
128 |
qwen2-7b |
1 |
32 |
1 |
64 |
qwen2-72b |
8 |
32 |
4 |
64 |
chatglm2-6b |
1 |
64 |
1 |
128 |
chatglm3-6b |
1 |
64 |
1 |
128 |
glm-4-9b |
1 |
32 |
1 |
128 |
baichuan-7b |
1 |
16 |
1 |
32 |
baichuan-13b |
2 |
4 |
1 |
4 |
baichuan2-7b |
1 |
8 |
1 |
32 |
baichuan2-13b |
2 |
4 |
1 |
4 |
yi-6b |
1 |
64 |
1 |
128 |
yi-9b |
1 |
32 |
1 |
64 |
yi-34b |
4 |
32 |
2 |
64 |
deepseek-llm-7b |
1 |
16 |
1 |
32 |
deepseek-coder-instruct-33b |
4 |
32 |
2 |
64 |
deepseek-llm-67b |
8 |
32 |
4 |
64 |
mistral-7b |
1 |
32 |
1 |
128 |
mixtral-8x7b |
4 |
8 |
2 |
32 |
gemma-2b |
1 |
64 |
1 |
128 |
gemma-7b |
1 |
8 |
1 |
32 |
说明:机器型号规格以卡数*显存大小为单位,如4*64GB代表4张64GB显存的NPU卡。
- ModelArts计费说明_计费简介_ModelArts怎么计费
- ModelArts推理部署_模型_AI应用来源-华为云
- 华为云ModelArts_ModelArts开发_AI全流程开发
- ModelArts推理部署_OBS导入_模型包规范-华为云
- ModelArts推理部署_AI应用_部署服务-华为云
- ModelArts推理部署_服务_访问公网-华为云
- ModelArts模型训练_创建训练作业_如何创建训练作业
- ModelArts推理部署_创建AI应用_自定义镜像规范-华为云
- ModelArts推理部署_在线服务_访问在线服务-华为云
- ModelArts开发环境_开发环境简介_开发环境怎么使用