AI开发平台MODELARTS-推理性能测试:约束限制

时间:2024-12-09 20:36:21

约束限制

  • 创建在线服务时,每秒服务流量限制默认为100次,如果静态benchmark的并发数(parallel-num参数)或动态benchmark的请求频率(request-rate参数)较高,会触发推理平台的流控,请在ModelArts Standard“在线服务”详情页修改服务流量限制。
  • 同步请求时,平台每次请求预测的时间不能超过60秒。例如输出数据比较大的调用请求(例如输出大于1k),请求预测会超过60秒导致调用失败,可提交工单设置请求超时时间。
support.huaweicloud.com/bestpractice-modelarts/modelarts_llm_infer_90851.html