AI开发平台MODELARTS-使用MaaS部署模型服务:单实例QPS的推荐值说明
单实例QPS的推荐值说明
单实例流量限制QPS和请求的输入输出有关,表2中的QPS推荐值是在多轮对话、摘要生产和信息检索场景下预估出的数据,仅供参考,如果要了解其余典型场景的QPS推荐值请联系技术支持。
单位:次/秒
模型名称 |
QPS推荐值 |
---|---|
Baichuan2-13B |
1 |
Baichuan2-7B |
3 |
ChatGLM3-6B |
3 |
Llama2-13B |
1 |
Llama2-13B-AWQ |
1 |
Llama2-13B-SQ |
1 |
Llama2-70B |
1 |
Llama2-70B-AWQ |
1 |
Llama2-70B-SQ |
1 |
Llama2-7B |
3 |
Llama2-7B-AWQ |
3 |
Llama2-7B-SQ |
3 |
Llama3-70B |
1 |
Llama3-70B-AWQ |
1 |
Llama3-70B-SQ |
1 |
Llama3-8B |
3 |
Llama3-8B-AWQ |
3 |
Llama3-8B-SQ |
6 |
Llama3.1-70B |
1 |
Llama3.1-8B |
3 |
Qwen1.5-14B |
1 |
Qwen1.5-14B-AWQ |
1 |
Qwen1.5-14B-SQ |
1 |
Qwen1.5-32B |
1 |
Qwen1.5-72B |
1 |
Qwen1.5-72B-AWQ |
1 |
Qwen1.5-72B-SQ |
1 |
Qwen1.5-7B |
3 |
Qwen1.5-7B-AWQ |
3 |
Qwen1.5-7B-SQ |
3 |
Qwen-14B |
1 |
Qwen2-72B |
1 |
Qwen2-72B-AWQ |
1 |
Qwen2-72B-SQ |
1 |
Qwen2-72B-1K |
1 |
Qwen2-72B-32K |
1 |
Qwen2-7B |
3 |
Qwen2-7B-AWQ |
3 |
Qwen-72B |
1 |
Qwen-7B |
3 |
Qwen2-1.5B |
6 |
Qwen2-0.5B |
9 |
Qwen2.5-0.5B |
9 |
Qwen2.5-1.5B |
6 |
Qwen2.5-7B |
3 |
Qwen2.5-14B |
1 |
Qwen2.5-72B |
1 |
Qwen2.5-72B-32K |
1 |
Qwen2.5-72B-AWQ |
1 |
Qwen2.5-72B-SQ |
1 |
Qwen2.5-32B |
1 |
Qwen2.5-32B-AWQ |
1 |
Qwen2.5-32B-SQ |
1 |
Qwen2.5-72B-1K |
1 |
Glm-4-9B |
3 |
Yi-34B |
1 |
Yi-6B |
3 |
Deepseek-Coder-33B |
1 |
- 云日志服务的使用限制_云日志服务_使用限制说明
- ModelArts计费说明_计费简介_ModelArts怎么计费
- ModelArts推理部署_OBS导入_模型包规范-华为云
- ModelArts推理部署_模型_AI应用来源-华为云
- 分布式缓存Redis版本差异_分布式缓存Redis有哪些版本_分布式缓存-华为云
- 分布式缓存Redis企业版优势_分布式缓存Redis企业版特点
- TMS开发_金蝶TMS系统_TMS技术系统_信息化管理_视频
- 大量文件存储系统特惠_文件存储场景是什么_高性能计算文件存储
- 分布式缓存redis_分布式缓存技术_分布式缓存-华为云
- ModelArts自动学习是什么_自动学习简介_零代码完成AI开发