AI开发平台MODELARTS-部署推理服务:附录:基于vLLM(v0.3.2)不同模型推理支持的max-model-len长度说明

时间:2024-10-13 20:24:37

附录:基于vLLM(v0.3.2)不同模型推理支持的max-model-len长度说明

基于vLLM(v0.3.2)部署推理服务时,不同模型推理支持的max-model-len长度说明如下面的表格所示。如需达到以下值,需要将--gpu-memory-utilization设为0.9,qwen系列、qwen1.5系列、llama3系列模型还需打开词表切分配置export USE_VOCAB_PARALLEL=1。

序号

模型名称

4*64GB

8*32GB

1

qwen1.5-72b

24576

8192

2

qwen-72b

24576

8192

3

llama3-70b

32768

8192

4

llama2-70b

98304

32768

6

llama-65b

24576

8192

序号

模型名称

2*64GB

4*32GB

1

qwen1.5-32b

65536

24576

序号

模型名称

1*64GB

1*32GB

1

qwen1.5-7b

49152

16384

2

qwen-7b

49152

16384

3

llama3-8b

98304

32768

4

llama2-7b

126976

16384

5

chatglm3-6b

126976

65536

6

chatglm2-6b

126976

65536

序号

模型名称

1*64GB

2*32GB

1

qwen1.5-14b

24576

24576

2

qwen-14b

24576

24576

3

llama2-13b

24576

24576

说明:机器型号规格以卡数*显存大小为单位,如4*64GB代表4张64GB显存的NPU卡。

support.huaweicloud.com/bestpractice-modelarts/modelarts_10_1902.html