AI开发平台MODELARTS-语言模型推理性能测试:单条请求性能测试

时间:2024-12-09 20:36:22

单条请求性能测试

针对openai的/v1/completions以及/v1/chat/completions两个非流式接口,请求体中可以添加可选参数"return_latency",默认为false,若指定该参数为true,则会在相应请求的返回体中返回字段"latency",返回内容如下:

  1. prefill_latency(首token时延):请求从到达服务开始到生成首token的耗时
  2. model_prefill_latency(模型计算首token时延):服务从开始计算首token到生成首token的耗时
  3. avg_decode_latency(平均增量token时延):服务计算增量token的平均耗时
  4. time_in_queue(请求排队时间):请求从到达服务开始到开始被调度的耗时
  5. request_latency(请求总时延):请求从到达服务开始到结束的耗时

以上指标单位均是ms,保留2位小数。

support.huaweicloud.com/bestpractice-modelarts/modelarts_llm_infer_90917.html