AI开发平台MODELARTS-推理性能测试:投机推理benchmark验证

时间:2024-12-09 20:36:23

投机推理benchmark验证

本章节介绍如何进行投机推理benchmark验证,当前投机推理benchmark仅支持在Notebook中进行测试。

  1. 进入benchmark_tools目录下。
    cd benchmark_tools 
  2. 运行验证脚本speculative_benchmark_parallel.py,具体操作命令如下,可以根据参数说明修改参数。
    python speculative_benchmark_parallel.py --backend vllm --host ${docker_ip} --port 8080 --dataset human-eval-v2-20210705.jsonl \ --tokenizer /path/to/tokenizer  --num-prompts 80 \
    --output_len 4096 --trust-remote-code
    • --backend:服务类型,如tgi,vllm,mindspore、openai。
    • --host ${docker_ip}:服务部署的IP地址,${docker_ip}替换为宿主机实际的IP地址。
    • --port:推理服务端口。
    • --dataset:数据集路径,推荐使用human-eval-v2-20210705.jsonl数据集,数据集可从https://github.com/openai/human-eval/blob/master/data/HumanEval.jsonl.gz下载压缩包解压获得。
    • --tokenizer:tokenizer路径,可以是HuggingFace的权重路径,backend取值是openai时,tokenizer路径需要和推理服务启动时--model路径保持一致,比如--model /data/nfs/model/llama_7b, --tokenizer也需要为/data/nfs/model/llama_7b,两者要完全一致。
    • --num-prompts:某个频率下请求数,默认80。
    • --output_len:输出长度,默认是1024。
    • --trust-remote-code:是否相信远程代码。

    脚本运行完后,测试结果直接在终端输出。

support.huaweicloud.com/bestpractice-modelarts/modelarts_llm_infer_90951.html