AI开发平台MODELARTS-使用MaaS部署模型服务:QPS的推荐值说明

时间:2024-11-15 09:43:56

QPS的推荐值说明

单实例流量限制QPS和请求的输入输出有关,表2中的QPS推荐值是在多轮对话、摘要生产和信息检索场景下预估出的数据,仅供参考,如果要了解其余典型场景的QPS推荐值请联系技术支持。

单位:次/秒

表2 各模型的QPS推荐值

模型名称

QPS推荐值

Baichuan2-13B

1

ChatGLM3-6B

3

Llama2-13B

1

Llama2-13B-AWQ

1

Llama2-13B-SQ

1

Llama2-70B

1

Llama2-70B-AWQ

1

Llama2-70B-SQ

1

Llama2-7B

3

Llama2-7B-AWQ

3

Llama2-7B-SQ

3

Llama3-70B

1

Llama3-70B-AWQ

1

Llama3-70B-SQ

1

Llama3-8B

3

Llama3-8B-AWQ

3

Llama3-8B-SQ

6

Llama3.1-70B

1

Llama3.1-8B

3

Qwen1.5-14B

1

Qwen1.5-14B-AWQ

1

Qwen1.5-14B-SQ

1

Qwen1.5-32B

1

Qwen1.5-72B

1

Qwen1.5-72B-AWQ

1

Qwen1.5-72B-SQ

1

Qwen1.5-7B

3

Qwen1.5-7B-AWQ

3

Qwen1.5-7B-SQ

3

Qwen-14B

1

Qwen2-72B

1

Qwen2-72B-AWQ

1

Qwen2-72B-SQ

1

Qwen2-72B-1K

1

Qwen2-72B-32K

1

Qwen2-7B

3

Qwen2-7B-AWQ

3

Qwen-72B

1

Qwen-7B

3

Qwen2-1.5B

6

Qwen2-0.5B

9

Glm-4-9B

3

Yi-34B

1

Yi-6B

3

support.huaweicloud.com/usermanual-maas-modelarts/maas-modelarts-0010.html