AI开发平台MODELARTS-附录:基于vLLM不同模型推理支持最小卡数和最大序列说明

时间:2024-12-17 18:06:53

附录:基于vLLM不同模型推理支持最小卡数和最大序列说明

基于vLLM(v0.6.3)部署推理服务时,不同模型推理支持的最小昇腾卡数和对应卡数下的max-model-len长度说明,如下面的表格所示。

以下值是在gpu-memory-utilization为0.9时测试得出,为服务部署所需的最小昇腾卡数及该卡数下推荐的最大max-model-len长度,不代表最佳性能。

以llama2-13b为例,NPU卡显存为32GB时,至少需要2张卡运行推理业务,2张卡运行的情况下,推荐的最大序列max-model-len长度最大是16K,此处的单位K是1024,即16*1024。

测试方法:gpu-memory-utilization为0.9下,以4k、8k、16k递增max-model-len,直至达到能执行静态benchmark下的最大max-model-len。

表1 基于vLLM不同模型推理支持最小卡数和最大序列说明

序号

模型名

32GB显存

64GB显存

最小卡数

最大序列(K)

max-model-len

最小卡数

最大序列(K)

max-model-len

1

llama-7b

1

16

1

32

2

llama-13b

2

16

1

16

3

llama-65b

8

16

4

16

4

llama2-7b

1

16

1

32

5

llama2-13b

2

16

1

16

6

llama2-70b

8

32

4

64

7

llama3-8b

1

32

1

128

8

llama3.1-8b

1

32

1

128

9

llama3-70b

8

32

4

64

10

llama3.1-70b

8

32

4

64

11

llama3.2-1b

1

128

1

128

12

llama3.2-3b

1

128

1

128

13

qwen-7b

1

8

1

32

14

qwen-14b

2

16

1

16

15

qwen-72b

8

8

4

16

16

qwen1.5-0.5b

1

128

1

256

17

qwen1.5-7b

1

8

1

32

18

qwen1.5-1.8b

1

64

1

128

19

qwen1.5-14b

2

16

1

16

20

qwen1.5-32b

4

32

2

64

21

qwen1.5-72b

8

8

4

16

22

qwen1.5-110b

-

-

8

128

23

qwen2-0.5b

1

128

1

256

24

qwen2-1.5b

1

64

1

128

25

qwen2-7b

1

8

1

32

26

qwen2-72b

8

32

4

64

27

qwen2.5-0.5b

1

32

1

32

28

qwen2.5-1.5b

1

32

1

32

29

qwen2.5-3b

1

32

1

32

30

qwen2.5-7b

1

32

1

32

31

qwen2.5-14b

2

32

1

32

32

qwen2.5-32b

4

32

2

64

33

qwen2.5-72b

8

32

4

32

34

chatglm2-6b

1

64

1

128

35

chatglm3-6b

1

64

1

128

36

glm-4-9b

1

32

1

128

37

baichuan2-7b

1

8

1

32

38

baichuan2-13b

2

4

1

4

39

yi-6b

1

64

1

128

40

yi-9b

1

32

1

64

41

yi-34b

4

32

2

64

42

deepseek-llm-7b

1

16

1

32

43

deepseek-coder-33b-instruct

4

32

2

64

44

deepseek-llm-67b

8

32

4

64

45

mistral-7b

1

32

1

128

46

mixtral-8x7b

4

8

2

32

47

gemma-2b

1

64

1

128

48

gemma-7b

1

8

1

32

49

falcon-11b

1

8

1

64

50

llava-1.5-7b

1

16

1

32

51

llava-1.5-13b

1

8

1

16

52

llava-v1.6-7b

1

16

1

32

53

llava-v1.6-13b

1

8

1

16

54

llava-v1.6-34b

4

32

2

64

55

internvl2-8b

1

16`

1

32

56

internvl2-26b

2

8

1

8

57

internvl2-40b

-

-

2

32

58

internVL2-Llama3-76B

-

-

4

8

59

MiniCPM-v2.6

-

-

1

8

60

llama-3.1-405B-AWQ

-

-

8

32

61

qwen2-57b-a14b

-

-

2

16

62

deepseek-v2-lite-16b

2

4

1

4

63

deepseek-v2-236b

-

-

8

4

64

qwen2-vl-2B

1

8

1

8

65

qwen2-vl-7B

1

8

1

32

66

qwen2-vl-72B

-

-

4

32

67

qwen-vl

1

64

1

64

68

qwen-vl-chat

1

64

1

64

69

MiniCPM-v2

2

16

1

16

“-”表示不支持。

support.huaweicloud.com/bestpractice-modelarts/modelarts_llm_infer_91158.html