AI开发平台MODELARTS-在Notebook调试环境中部署推理服务:Step4 部署并启动推理服务

时间：2025-03-12 09:40:08

AI开发平台MODELARTS

Step4 部署并启动推理服务

在Step3中的terminal部署并启动推理服务。有2种方式，使用vllm-api启动推理服务，或者使用openai-api启动推理服务。参考命令如下：

# 使用vllm-api
python vllm/entrypoints/api_server.py \
--model="${model_path}" \
--tensor-parallel-size 1 \
--gpu-memory-utilization 0.95 \
--max-model-len=4096 \
--trust-remote-code \
--dtype="float16" \
--host=0.0.0.0 \
--port=8080

# 使用openai-api
python vllm/entrypoints/openai/api_server.py \
--model="${model_path}" \
--tensor-parallel-size 1 \
--gpu-memory-utilization 0.95 \
--max-model-len=4096 \
--trust-remote-code \
--dtype="float16" \
--host=0.0.0.0 \
--port=8080

参数说明：

--model：模型地址，模型格式是Huggingface的目录格式。
--tensor-parallel-size：并行卡数。
--gpu-memory-utilization：0~1之间的float，实际使用的显存是系统读取的最大显存*gpu-memory-utilization。
--max-model-len：最大数据输入+输出长度，不能超过模型配置文件config.json里面定义的“max_position_embeddings”和“seq_length”；如果设置过大，会占用过多显存，影响kvcache的空间。不同模型推理支持的max-model-len长度不同，具体差异请参见附录：基于vLLM（v0.3.2）不同模型推理支持的max-model-len长度说明。
--hostname：服务部署的IP，使用本机IP 0.0.0.0。
--port：服务部署的端口。

服务启动后，会打印如下信息。

server launch time cost: 15.443044185638428 s
INFO:     Started server process [2878]
INFO:     Waiting for application startup.
INFO:     Application startup complete.
INFO:     Uvicorn running on http://0.0.0.0:8080 (Press CTRL+C to quit)

上一篇：AI开发平台MODELARTS-在Notebook调试环境中部署推理服务:Step3 配置NPU环境

下一篇：AI开发平台MODELARTS-在Notebook调试环境中部署推理服务:Step2 准备模型代码包和权重文件