AI开发平台MODELARTS-在Notebook调试环境中部署推理服务:Step4 部署并启动推理服务

时间:2025-03-12 09:40:08

Step4 部署并启动推理服务

在Step3中的terminal部署并启动推理服务。有2种方式,使用vllm-api启动推理服务,或者使用openai-api启动推理服务。参考命令如下:

# 使用vllm-api
python vllm/entrypoints/api_server.py \
--model="${model_path}" \
--tensor-parallel-size 1 \
--gpu-memory-utilization 0.95 \
--max-model-len=4096 \
--trust-remote-code \
--dtype="float16" \
--host=0.0.0.0 \
--port=8080

# 使用openai-api
python vllm/entrypoints/openai/api_server.py \
--model="${model_path}" \
--tensor-parallel-size 1 \
--gpu-memory-utilization 0.95 \
--max-model-len=4096 \
--trust-remote-code \
--dtype="float16" \
--host=0.0.0.0 \
--port=8080

参数说明:

  • --model:模型地址,模型格式是Huggingface的目录格式。
  • --tensor-parallel-size:并行卡数。
  • --gpu-memory-utilization:0~1之间的float,实际使用的显存是系统读取的最大显存*gpu-memory-utilization。
  • --max-model-len:最大数据输入+输出长度,不能超过模型配置文件config.json里面定义的“max_position_embeddings”和“seq_length”;如果设置过大,会占用过多显存,影响kvcache的空间。不同模型推理支持的max-model-len长度不同,具体差异请参见附录:基于vLLM(v0.3.2)不同模型推理支持的max-model-len长度说明
  • --hostname:服务部署的IP,使用本机IP 0.0.0.0。
  • --port:服务部署的端口。

服务启动后,会打印如下信息。

server launch time cost: 15.443044185638428 s
INFO:     Started server process [2878]
INFO:     Waiting for application startup.
INFO:     Application startup complete.
INFO:     Uvicorn running on http://0.0.0.0:8080 (Press CTRL+C to quit)
support.huaweicloud.com/bestpractice-modelarts/modelarts_10_1969.html