AI开发平台MODELARTS-在Notebook调试环境中部署推理服务:附录:基于vLLM(v0.3.2)不同模型推理支持的max-model-len长度说明

时间:2024-12-09 20:36:11

附录:基于vLLM(v0.3.2)不同模型推理支持的max-model-len长度说明

基于vLLM(v0.5.0)部署推理服务时,不同模型推理支持的max-model-len长度说明如下面的表格所示。如需达到以下值,需要将--gpu-memory-utilization设为0.9。

表2 不同模型推理支持的max-model-len长度

模型名

280T

313T

最小卡数

最大序列(K)

最小卡数

最大序列(K)

llama-7b

1

16

1

32

llama-13b

2

16

1

16

llama-65b

8

16

4

16

llama2-7b

1

16

1

32

llama2-13b

2

16

1

16

llama2-70b

8

32

4

64

llama3-8b

1

32

1

128

llama3-70b

8

32

4

64

qwen-7b

1

8

1

32

qwen-14b

2

16

1

16

qwen-72b

8

8

4

16

qwen1.5-0.5b

1

128

1

256

qwen1.5-7b

1

8

1

32

qwen1.5-1.8b

1

64

1

128

qwen1.5-14b

2

16

1

16

qwen1.5-32b

4

32

2

64

qwen1.5-72b

8

8

4

16

qwen1.5-110b

oom

8

128

qwen2-0.5b

1

128

1

256

qwen2-1.5b

1

64

1

128

qwen2-7b

1

32

1

64

qwen2-72b

8

32

4

64

chatglm2-6b

1

64

1

128

chatglm3-6b

1

64

1

128

glm-4-9b

1

32

1

128

baichuan-7b

1

16

1

32

baichuan-13b

2

4

1

4

baichuan2-7b

1

8

1

32

baichuan2-13b

2

4

1

4

yi-6b

1

64

1

128

yi-9b

1

32

1

64

yi-34b

4

32

2

64

deepseek-llm-7b

1

16

1

32

deepseek-coder-instruct-33b

4

32

2

64

deepseek-llm-67b

8

32

4

64

mistral-7b

1

32

1

128

mixtral-8x7b

4

8

2

32

gemma-2b

1

64

1

128

gemma-7b

1

8

1

32

说明:机器型号规格以卡数*显存大小为单位,如4*64GB代表4张64GB显存的NPU卡。

support.huaweicloud.com/bestpractice-modelarts/modelarts_10_01988.html