AI开发平台ModelArts-Ascend-vLLM推理常见问题:问题9:使用benchmark-tools访问推理服务返回报错
问题9:使用benchmark-tools访问推理服务返回报错
使用benchmark-tools访问推理服务时,输入输出的token和大于max_model_len,服务端返回报错Response payload is not completed,见图2。
再次设置输入输出的token和小于max_model_len访问推理服务,服务端响应200,见图3。
客户端仍返回报错Response payload is not completed,见图4。
解决方法:
安装brotlipy后返回正确报错
pip install brotlipy