华为云首页用户手册

AI开发平台MODELARTS-部署推理服务:Step6 启动推理服务

时间：2024-12-09 20:36:13

AI开发平台MODELARTS

Step6 启动推理服务

配置需要使用的NPU卡编号。例如：实际使用的是第1张卡，此处填写“0”。
```
export ASCEND_RT_VISIBLE_DEVI CES =0
```
如果启动服务需要使用多张卡，例如：实际使用的是第1张和第2张卡，此处填写为“0,1”，以此类推。
```
export ASCEND_RT_VISIBLE_DEVICES=0,1
```
NPU卡编号可以通过命令npu-smi info查询。
配置PYTHONPATH。
```
export PYTHONPATH=$PYTHONPATH:${vllm_path}
```
${vllm_path} 填写ascend_vllm文件夹绝对路径。
高阶配置（可选）。
1. 词表切分。
  在分布式场景下，默认不使用词表切分能提升推理性能，同时也会增加单卡的显存占用。不建议开启词表并行，如确需使用词表切分，配置以下环境变量：
```
export USE_VOCAB_PARALLEL=1   #打开词表切分开关
unset USE_VOCAB_PARALLEL      #关闭词表切分开关
```
  配置后重启服务生效。
2. Matmul_all_reduce融合算子。
  使用Matmul_all_reduce融合算子能提升全量推理性能；该算子要求驱动和固件版本为Ascend HDK 24.1.RC1.B011及以上，默认不开启。如需开启，配置以下环境变量：
```
export USE_MM_ALL_REDUCE_OP=1   #打开Matmul_all_reduce融合算子
unset  USE_MM_ALL_REDUCE_OP     #关闭Matmul_all_reduce融合算子
```
  配置后重启服务生效。
3. 查看详细日志。
  查看详细耗时日志可以辅助定位性能瓶颈，但会影响推理性能。如需开启，配置以下环境变量：
```
export DETAIL_TIME_ LOG =1   #打开打印详细日志
export RAY_DEDUP_LOGS=0    #打开打印详细日志
unset  DETAIL_TIME_LOG     #关闭打印详细日志
```
  配置后重启服务生效。
启动服务与请求。此处提供vLLM服务API接口启动和OpenAI服务API接口启动2种方式。详细启动服务与请求方式参考：https://docs.vllm.ai/en/latest/getting_started/quickstart.html。

以下服务启动介绍的是在线推理方式，离线推理请参见https://docs.vllm.ai/en/latest/getting_started/quickstart.html#offline-batched-inference。
- 通过vLLM服务API接口启动服务
  在ascend_vllm目录下通过vLLM服务API接口启动服务，具体操作命令如下，API Server的命令相关参数说明如下，可以根据参数说明修改配置。
```
python -m vllm.entrypoints.api_server --model ${container_model_path} \
--max-num-seqs=256 \
--max-model-len=4096 \
--max-num-batched-tokens=4096 \
--dtype=float16 \
--tensor-parallel-size=1 \
--block-size=128 \
--host=${docker_ip} \
--port=8080 \
--gpu-memory-utilization=0.9 \
--trust-remote-code
```
- 通过OpenAI服务API接口启动服务
  在ascend_vllm目录下通OpenAI服务API接口启动服务，具体操作命令如下，可以根据参数说明修改配置。
```
python -m vllm.entrypoints.openai.api_server --model ${container_model_path} \
--max-num-seqs=256 \
--max-model-len=4096 \
--max-num-batched-tokens=4096 \
--dtype=float16 \
--tensor-parallel-size=1 \
--block-size=128 \
--host=${docker_ip} \
--port=8080 \
--gpu-memory-utilization=0.9 \
--trust-remote-code
```
具体参数说明如下：
- --model ${container_model_path}：模型地址，模型格式是HuggingFace的目录格式。即Step3 上传代码包和权重文件上传的HuggingFace权重文件存放目录。如果使用的是训练后模型转换为HuggingFace格式的地址，还需要有Tokenizer原始文件。
- --max-num-seqs：最大同时处理的请求数，超过后拒绝访问。
- --max-model-len：推理时最大输入+最大输出tokens数量，输入超过该数量会直接返回。max-model-len的值必须小于config.json文件中的"seq_length"的值，否则推理预测会报错。config.json存在模型对应的路径下，例如：${container_work_dir}/chatglm3-6b/config.json。不同模型推理支持的max-model-len长度不同，具体差异请参见附录：基于vLLM（v0.3.2）不同模型推理支持的max-model-len长度说明。
- --max-num-batched-tokens：prefill阶段，最多会使用多少token，必须大于或等于--max-model-len，推荐使用4096或8192。
- --dtype：模型推理的数据类型。支持FP16和BF16数据类型推理。float16表示FP16，bfloat16表示BF16。
- --tensor-parallel-size：模型并行数。取值需要和启动的NPU卡数保持一致，可以参考1。此处举例为1，表示使用单卡启动服务。
- --block-size：PagedAttention的block大小，推荐设置为128。
- --host=${docker_ip}：服务部署的IP，${docker_ip}替换为宿主机实际的IP地址。
- --port：服务部署的端口。
- --gpu-memory-utilization：NPU使用的显存比例，复用原vLLM的入参名称，默认为0.9。
- --trust-remote-code：是否相信远程代码。
服务启动后，会打印如下类似信息。
```
server launch time cost: 15.443044185638428 s INFO:     Started server process [2878]INFO:     Waiting for application startup. INFO:     Application startup complete. INFO:     Uvicorn running on http://0.0.0.0:8080 (Press CTRL+C to quit)
```