AI开发平台MODELARTS-推理性能测试:静态benchmark验证

时间：2024-12-17 18:06:50

AI开发平台MODELARTS 主流开源大模型基于Lite Cluster适配PyTorch NPU推理指导（6.3.911）

静态benchmark验证

本章节介绍如何进行静态benchmark验证。

已经上传benchmark验证脚本到推理容器中。如果在Step3 制作推理镜像步骤中已经上传过AscendCloud-LLM-x.x.x.zip并解压，无需重复执行。
执行如下命令进入容器。
```
kubectl exec -it {pod_name} bash
```
${pod_name}：pod名，例如图1${pod_name}为yourapp-87d9b5b46-c46bk。

进入benchmark_tools目录下，切换conda环境并安装依赖。

cd /home/ma-user/AscendCloud/AscendCloud-LLM/llm_tools/llm_evaluation/benchmark_tools
conda activate python-3.9.10
pip install -r requirements.txt

运行静态benchmark验证脚本benchmark_parallel.py，具体操作命令如下，可以根据参数说明修改参数。
```
python benchmark_parallel.py --backend openai --host 127.0.0.1 --port 8080 --tokenizer /path/to/tokenizer  --epochs 5 \
--parallel-num 1 4 8 16 32  --prompt-tokens 1024 2048 --output-tokens 128 256 --benchmark-csv benchmark_parallel.csv
```
参数说明
- --backend：服务类型，支持tgi、vllm、mindspore、openai等。本文档使用的推理接口是vllm。
- --host：服务部署的IP。
- --port：推理服务端口8080。
- --tokenizer：tokenizer路径，HuggingFace的权重路径。
- --epochs：测试轮数，默认取值为5
- --parallel-num：每轮并发数，支持多个，如 1 4 8 16 32。
- --prompt-tokens：输入长度，支持多个，如 128 128 2048 2048，数量需和--output-tokens的数量对应。
- --output-tokens：输出长度，支持多个，如 128 2048 128 2048，数量需和--prompt-tokens的数量对应。
- --benchmark-csv：结果保存文件，如benchmark_parallel.csv。
- --served-model-name：选择性添加，在接口中使用的模型名；如果没有配置，则默认为tokenizer。
- --num-scheduler-steps: 服务启动如果配置了--num-scheduler-steps和--multi-step-stream-outputs=false，则需配置此参数与服务启动时--num-scheduler-steps一致。
- --enable-prefix-caching：服务端是否启用enable-prefix-caching特性，默认为false。
- --prefix-caching-num：构造的prompt的公共前缀的序列长度，prefix-caching-num值需小于prompt-tokens。
- --use-spec-decode：是否使用投机推理进行输出统计，不输入默认为false。当使用投机推理时必须开启，否则会导致输出token数量统计不正确。注：由于投机推理的性能测试使用随机输入意义不大，建议开启--dataset-type、--dataset-path，并选择性开启--use-real-dataset-output-tokens使用真实数据集进行测试。
- --dataset-type：当使用投机推理时开启，benchmark使用的数据类型，当前支持random、sharegpt、human-eval三种输入。random表示构造随机token的数据集进行测试；sharegpt表示使用sharegpt数据集进行测试；human-eval数据集表示使用human-eval数据集进行测试。注意：当输入为sharegpt或human-eval时，测试数据的输入长度为数据集的真实长度，--prompt-tokens的值会被忽略。
- --dataset-path：数据集的路径，仅当--dataset-type为sharegpt或者human-eval的时候生效。
- --use-real-dataset-output-tokens：当使用投机推理时开启，设置输出长度是否使用数据集的真实长度，不输入默认为false。当使用该选项时，测试数据的输出长度为数据集的真实长度，--output-tokens的值会被忽略。
- --num-speculative-tokens：仅当开启--use-spec-decode时生效，需和服务启动时配置的--num-speculative-tokens一致。默认为-1。当该值大于等于0时，会基于该值计算投机推理的接受率指标。
脚本运行完成后，测试结果保存在benchmark_parallel.csv中，示例如下图所示。
图1 静态benchmark测试结果（示意图）