AI开发平台MODELARTS-在推理生产环境中部署推理服务:Step4 调用在线服务

时间:2024-11-12 16:42:40

Step4 调用在线服务

进入在线服务详情页面,选择“预测”

如果以vllm接口启动服务,设置请求路径:“/generate”,输入预测代码“{"prompt": "你好", "temperature":0, "max_tokens":20}”,单击“预测”既可看到预测结果。

图8 预测-vllm

如果以openai接口启动服务,设置请求路径:“/v1/completions”,输入预测代码“{"prompt": "你是谁","model": "${model_path}","max_tokens": 50,"temperature":0}”,单击“预测”既可看到预测结果。

图9 预测-openai

在线服务的更多内容介绍请参见文档查看服务详情

support.huaweicloud.com/bestpractice-modelarts/modelarts_llm_infer_90949.html