AI开发平台MODELARTS-推理性能测试:benchmark方法介绍

时间：2025-03-12 09:40:22

AI开发平台MODELARTS

benchmark方法介绍

性能benchmark包括两部分。

静态性能测试：评估在固定输入、固定输出和固定并发下，模型的吞吐与首token延迟。该方式实现简单，能比较清楚的看出模型的性能和输入输出长度、以及并发的关系。
动态性能测试：评估在请求并发在一定范围内波动，且输入输出长度也在一定范围内变化时，模型的延迟和吞吐。该场景能模拟实际业务下动态的发送不同长度请求，能评估推理框架在实际业务中能支持的并发数。

性能benchmark验证使用到的脚本存放在代码包AscendCloud-LLM-x.x.x.zip的llm_tools/llm_evaluation目录下。

代码目录如下:

benchmark_tools 
├── benchmark_parallel.py  # 评测静态性能脚本
├── benchmark_serving.py  # 评测动态性能脚本
├── generate_dataset.py   # 生成自定义数据集的脚本
├── benchmark_utils.py   # 工具函数集
├── benchmark.py         # 执行静态、动态性能评测脚本
├── requirements.txt       # 第三方依赖

目前性能测试已经支持投机推理能力。

执行性能测试脚本前，需先安装相关依赖。

conda activate python-3.9.10
pip install -r requirements.txt

上一篇：AI开发平台MODELARTS-推理性能测试:约束限制

下一篇：AI开发平台MODELARTS-推理性能测试:投机推理benchmark验证

开年采购季抽奖赢万元免单

立即前往

续费同价 L实例 2核2G 4M

98元/年

企业专享 X实例 2核4G 5M

198元/年

热门域名 1元随心购

1元/年起

AI开发平台MODELARTS-推理性能测试:benchmark方法介绍

意见反馈

0/200

提交取消

提交成功！非常感谢您的反馈，我们会继续努力做到更好反馈提交失败！请稍后重试！

AI开发平台MODELARTS-推理性能测试:benchmark方法介绍

AI开发平台MODELARTS-推理性能测试:benchmark方法介绍

benchmark方法介绍

7*24

备案

专业服务

退订

建议反馈

售前咨询热线