AI开发平台MODELARTS-在Notebook调试环境中部署推理服务:附录:基于vLLM(v0.3.2)不同模型推理支持的max-model-len长度说明
附录:基于vLLM(v0.3.2)不同模型推理支持的max-model-len长度说明
基于vLLM(v0.3.2)部署推理服务时,不同模型推理支持的max-model-len长度说明如下面的表格所示。如需达到以下值,需要将--gpu-memory-utilization设为0.9,qwen系列、qwen1.5系列、llama3系列模型还需打开词表切分配置export USE_VOCAB_PARALLEL=1。
序号 |
模型名称 |
4*64GB |
8*32GB |
---|---|---|---|
1 |
qwen1.5-72b |
24576 |
8192 |
2 |
qwen-72b |
24576 |
8192 |
3 |
llama3-70b |
32768 |
8192 |
4 |
llama2-70b |
98304 |
32768 |
6 |
llama-65b |
24576 |
8192 |
序号 |
模型名称 |
2*64GB |
4*32GB |
---|---|---|---|
1 |
qwen1.5-32b |
65536 |
24576 |
序号 |
模型名称 |
1*64GB |
1*32GB |
---|---|---|---|
1 |
qwen1.5-7b |
49152 |
16384 |
2 |
qwen-7b |
49152 |
16384 |
3 |
llama3-8b |
98304 |
32768 |
4 |
llama2-7b |
126976 |
16384 |
5 |
chatglm3-6b |
126976 |
65536 |
6 |
chatglm2-6b |
126976 |
65536 |
序号 |
模型名称 |
1*64GB |
2*32GB |
---|---|---|---|
1 |
qwen1.5-14b |
24576 |
24576 |
2 |
qwen-14b |
24576 |
24576 |
3 |
llama2-13b |
24576 |
24576 |
说明:机器型号规格以卡数*显存大小为单位,如4*64GB代表4张64GB显存的NPU卡。
- ModelArts计费说明_计费简介_ModelArts怎么计费
- ModelArts推理部署_模型_AI应用来源-华为云
- 华为云ModelArts_ModelArts开发_AI全流程开发
- ModelArts推理部署_OBS导入_模型包规范-华为云
- ModelArts推理部署_AI应用_部署服务-华为云
- ModelArts推理部署_服务_访问公网-华为云
- ModelArts模型训练_创建训练作业_如何创建训练作业
- ModelArts推理部署_创建AI应用_自定义镜像规范-华为云
- ModelArts推理部署_在线服务_访问在线服务-华为云
- ModelArts开发环境_开发环境简介_开发环境怎么使用