AI开发平台MODELARTS-推理性能测试:静态benchmark

时间：2024-12-09 20:36:13

AI开发平台MODELARTS

静态benchmark

运行静态benchmark验证脚本benchmark_parallel.py，具体操作命令如下，可以根据参数说明修改参数。

notebook中进行测试：

cd benchmark_tools 
python benchmark_parallel.py --backend vllm --host 127.0.0.1 --port 8080 --tokenizer /path/to/tokenizer --epochs 10 --parallel-num 1 2 4 8  --output-tokens 256 256 --prompt-tokens 1024 2048 --benchmark-csv benchmark_parallel.csv

生产环境中进行测试：

python benchmark_parallel.py --backend vllm --url xxx --app-code xxx --tokenizer /path/to/tokenizer --epochs 10 --parallel-num 1 2 4 8  --output-tokens 256 256 --prompt-tokens 1024 2048 --benchmark-csv benchmark_parallel.csv

参数说明：

--backend：服务类型，支持tgi、vllm、mindspore等。本文档使用的推理接口是vllm。
--host：服务IP地址，如127.0.0.1。
--port：服务端口，和推理服务端口8080。
--url：API接口公网地址与"/v1/completions"拼接而成，部署成功后的在线服务详情页中可查看API接口公网地址。
图1 API接口公网地址
--app-code：获取方式见访问在线服务（APP认证）。
--tokenizer：tokenizer路径，HuggingFace的权重路径。若服务部署在notebook中，该参数为notebook中权重路径；若服务部署在生产环境中，该参数为服务启动脚本run_vllm.sh中${model_path}。
--epochs：测试轮数，默认取值为5。
--parallel-num：每轮并发数，支持多个，如 1 4 8 16 32。
--prompt-tokens：输入长度，支持多个，如 128 128 2048 2048，数量需和--output-tokens的数量对应。
--output-tokens：输出长度，支持多个，如 128 2048 128 2048，数量需和--prompt-tokens的数量对应。