华为云首页用户手册

AI开发平台MODELARTS-推理性能测试:投机推理benchmark验证

AI开发平台MODELARTS-推理性能测试:投机推理benchmark验证

时间：2025-02-25 19:54:46

AI开发平台MODELARTS

投机推理benchmark验证

本章节介绍如何进行投机推理benchmark验证，当前投机推理benchmark仅支持在Notebook中进行测试。

进入benchmark_tools目录下。
```
cd benchmark_tools 
```
运行验证脚本speculative_benchmark_parallel.py，具体操作命令如下，可以根据参数说明修改参数。
```
python speculative_benchmark_parallel.py --backend vllm --host ${docker_ip} --port 8080 --dataset human-eval-v2-20210705.jsonl \ --tokenizer /path/to/tokenizer  --num-prompts 80 \
--output_len 4096 --trust-remote-code
```
- --backend：服务类型，如tgi，vllm，mindspore、openai。
- --host ${docker_ip}：服务部署的IP地址，${docker_ip}替换为宿主机实际的IP地址。
- --port：推理服务端口。
- --dataset：数据集路径，推荐使用human-eval-v2-20210705.jsonl数据集，数据集可从https://github.com/openai/human-eval/blob/master/data/HumanEval.jsonl.gz下载压缩包解压获得。
- --tokenizer：tokenizer路径，可以是HuggingFace的权重路径，backend取值是openai时，tokenizer路径需要和推理服务启动时--model路径保持一致，比如--model /data/nfs/model/llama_7b， --tokenizer也需要为/data/nfs/model/llama_7b，两者要完全一致。
- --num-prompts：某个频率下请求数，默认80。
- --output_len：输出长度，默认是1024。
- --trust-remote-code：是否相信远程代码。
脚本运行完后，测试结果直接在终端输出。

上一篇：AI开发平台MODELARTS-使用AWQ量化工具转换权重:Step2 权重格式离线转换（可选）

下一篇：AI开发平台MODELARTS-推理性能测试:benchmark方法介绍

新客秒杀 2核2G 3M L实例

68元/年

普惠上云领千元上云礼券

立即前往

企业专享 X实例 4核8G 5M

888元/年

热门域名 1元随心购

1元/年起

AI开发平台MODELARTS-推理性能测试:投机推理benchmark验证

意见反馈

0/200

提交成功！非常感谢您的反馈，我们会继续努力做到更好反馈提交失败！请稍后重试！

推荐文章

解决方案
相关专题