AI开发平台MODELARTS-启动OpenAI服务器服务:请求服务
请求服务
使用命令测试推理服务是否正常启动。
curl -X POST http://127.0.0.1:8080/v1/chat/completions \ -H "Content-Type: application/json" \ -d '{ "model": "baichuan-13b-chat", "messages": [ { "role": "user", "content": "你是谁?" } ], "max_tokens": 100, "top_k": -1, "top_p": 1, "temperature": 0, "ignore_eos": false, "stream": false }'
服务的API与vLLM官网相同:https://github.com/vllm-project/vllm。此处介绍关键参数。
参数 |
是否必选 |
默认值 |
参数类型 |
描述 |
---|---|---|---|---|
model |
是 |
- |
Str |
模型名称,参数--served-model-name的值。 |
messages |
是 |
- |
LIst |
请求输入的问题。 |
max_tokens |
否 |
16 |
Int |
每个输出序列要生成的最大tokens数量。 |
top_k |
否 |
-1 |
Int |
控制要考虑的前几个tokens的数量的整数。设置为 -1 表示考虑所有tokens。 适当降低该值可以减少采样时间。 |
top_p |
否 |
1.0 |
Float |
控制要考虑的前几个tokens的累积概率的浮点数。必须在 (0, 1] 范围内。设置为 1 表示考虑所有toekns。 |
temperature |
否 |
1.0 |
Float |
控制采样的随机性的浮点数。较低的值使模型更加确定性,较高的值使模型更加随机。0表示贪婪采样。 |
stop |
否 |
None |
None/Str/List |
用于停止生成的字符串列表。返回的输出将不包含停止字符串。 例如:["你", "好"],生成文本时遇到"你"或者"好"将停止文本生成。 |
stop_token_ids |
否 |
None |
List |
用于停止生成的token列表。返回的输出将包含停止tokens,除非停止tokens是特殊tokens。 |
ignore_eos |
否 |
False |
Bool |
是否忽略EOS tokens并继续生成EOS tokens后的tokens。False表示不忽略。 |
presence_penalty |
否 |
0.0 |
Float |
基于生成文本中新tokens是否已出现来对其进行惩罚的浮点数。大于0的值鼓励模型使用新的tokens,小于0的值鼓励模型重复使用tokens。 取值范围为[-2, 2] |
frequency_penalty |
否 |
0.0 |
Float |
基于生成文本中新tokens的频率来对其进行惩罚的浮点数。大于0的值鼓励模型使用新的tokens,小于0的值鼓励模型重复使用tokens。 取值范围为[-2, 2] |
skip_special_tokens |
否 |
True |
Bool |
是否跳过输出中的特殊tokens。默认为True,表示跳过。 |
stream |
否 |
False |
Bool |
是否开启流式推理。默认为False,表示不开启流式推理。 |
查看返回是否符合预期