AI开发平台MODELARTS-使用MaaS部署模型服务:QPS的推荐值说明
QPS的推荐值说明
单实例流量限制QPS和请求的输入输出有关,表2中的QPS推荐值是在多轮对话、摘要生产和信息检索场景下预估出的数据,仅供参考,如果要了解其余典型场景的QPS推荐值请联系技术支持。
单位:次/秒
模型名称 |
QPS推荐值 |
---|---|
Baichuan2-13B |
1 |
ChatGLM3-6B |
3 |
Llama2-13B |
1 |
Llama2-13B-AWQ |
1 |
Llama2-13B-SQ |
1 |
Llama2-70B |
1 |
Llama2-70B-AWQ |
1 |
Llama2-70B-SQ |
1 |
Llama2-7B |
3 |
Llama2-7B-AWQ |
3 |
Llama2-7B-SQ |
3 |
Llama3-70B |
1 |
Llama3-70B-AWQ |
1 |
Llama3-70B-SQ |
1 |
Llama3-8B |
3 |
Llama3-8B-AWQ |
3 |
Llama3-8B-SQ |
6 |
Llama3.1-70B |
1 |
Llama3.1-8B |
3 |
Qwen1.5-14B |
1 |
Qwen1.5-14B-AWQ |
1 |
Qwen1.5-14B-SQ |
1 |
Qwen1.5-32B |
1 |
Qwen1.5-72B |
1 |
Qwen1.5-72B-AWQ |
1 |
Qwen1.5-72B-SQ |
1 |
Qwen1.5-7B |
3 |
Qwen1.5-7B-AWQ |
3 |
Qwen1.5-7B-SQ |
3 |
Qwen-14B |
1 |
Qwen2-72B |
1 |
Qwen2-72B-AWQ |
1 |
Qwen2-72B-SQ |
1 |
Qwen2-72B-1K |
1 |
Qwen2-72B-32K |
1 |
Qwen2-7B |
3 |
Qwen2-7B-AWQ |
3 |
Qwen-72B |
1 |
Qwen-7B |
3 |
Qwen2-1.5B |
6 |
Qwen2-0.5B |
9 |
Glm-4-9B |
3 |
Yi-34B |
1 |
Yi-6B |
3 |