华为云首页用户手册

AI开发平台MODELARTS-语言模型推理性能测试:单条请求性能测试

AI开发平台MODELARTS-语言模型推理性能测试:单条请求性能测试

时间：2024-12-09 20:36:22

AI开发平台MODELARTS 推理性能测试

单条请求性能测试

针对openai的/v1/completions以及/v1/chat/completions两个非流式接口，请求体中可以添加可选参数"return_latency"，默认为false，若指定该参数为true，则会在相应请求的返回体中返回字段"latency"，返回内容如下：

prefill_latency（首token时延）：请求从到达服务开始到生成首token的耗时
model_prefill_latency（模型计算首token时延）：服务从开始计算首token到生成首token的耗时
avg_decode_latency（平均增量token时延）：服务计算增量token的平均耗时
time_in_queue（请求排队时间）：请求从到达服务开始到开始被调度的耗时
request_latency（请求总时延）：请求从到达服务开始到结束的耗时

以上指标单位均是ms，保留2位小数。

上一篇：AI开发平台MODELARTS-语言模型推理性能测试:benchmark方法介绍

下一篇：AI开发平台MODELARTS-语言模型推理性能测试:静态benchmark验证

新客秒杀 2核2G 3M L实例

68元/年

普惠上云领千元上云礼券

立即前往

企业专享 X实例 4核8G 5M

888元/年

热门域名 1元随心购

1元/年起

AI开发平台MODELARTS-语言模型推理性能测试:单条请求性能测试

意见反馈

0/200

提交成功！非常感谢您的反馈，我们会继续努力做到更好反馈提交失败！请稍后重试！

推荐文章

解决方案
相关专题