云服务器内容精选

华为云首页用户手册

推理服务性能评测

AI开发平台ModelArts-多模态模型推理性能测试:静态benchmark验证

静态benchmark验证本章节介绍如何进行静态benchmark验证。已经上传benchmark验证脚本到推理容器中。如果在步骤三：上传代码包和权重文件中已经上传过AscendCloud-LLM-x.x.x.zip并解压，无需重复执行。进入benchmark_tools目录下，运行静态benchmark验证。 cd benchmark_tools 多模态模型脚本相对路径是llm_tools/llm_evaluation/benchmark_tools/modal_benchmark/modal_benchmark_parallel.py，具体操作命令如下，可以根据参数说明修改参数。 python modal_benchmark_parallel.py \--host ${docker_ip} \--port ${port} \--tokenizer /path/to/tokenizer \--epochs 5 \ --parallel-num 1 4 8 16 32 \--prompt-tokens 1024 2048 \--output-tokens 128 256 \--height ${height} \--width ${width} \--benchmark-csv benchmark_parallel.csv 参数说明 --host：服务部署的IP，${docker_ip}替换为宿主机实际的IP地址。 --port：推理服务端口。 --tokenizer：tokenizer路径，HuggingFace的权重路径。 --epochs：测试轮数，默认取值为5 --parallel-num：每轮并发数，支持多个，如 1 4 8 16 32。 --prompt-tokens：输入长度，支持多个，如 128 128 2048 2048，数量需和--output-tokens的数量对应。 --output-tokens：输出长度，支持多个，如 128 2048 128 2048，数量需和--prompt-tokens的数量对应。 --benchmark-csv：结果保存文件，如benchmark_parallel.csv。 --height: 图片长度（分辨率相关参数）。 --width: 图片宽度（分辨率相关参数）。 --served-model-name：选择性添加，在接口中使用的模型名；如果没有配置，则默认为tokenizer。脚本运行完成后，测试结果保存在benchmark_parallel.csv中。

AI开发平台ModelArts 推理服务性能评测