AI开发平台MODELARTS-启动OpenAI服务器服务:请求服务

时间:2024-04-30 18:09:26

请求服务

使用命令测试推理服务是否正常启动。

curl -X POST http://127.0.0.1:8080/v1/chat/completions \
-H "Content-Type: application/json" \
-d '{
    "model": "baichuan-13b-chat",
    "messages": [
        {
            "role": "user",
            "content": "你是谁?"
        }
    ],
    "max_tokens": 100,
    "top_k": -1,
    "top_p": 1,
    "temperature": 0,
    "ignore_eos": false,
    "stream": false
}'

 

服务的API与vLLM官网相同:https://github.com/vllm-project/vllm。此处介绍关键参数。

表1 请求服务参数说明

参数

是否必选

默认值

参数类型

描述

model

-

Str

模型名称,参数--served-model-name的值。

messages

-

LIst

请求输入的问题。

max_tokens

16

Int

每个输出序列要生成的最大tokens数量。

top_k

-1

Int

控制要考虑的前几个tokens的数量的整数。设置为 -1 表示考虑所有tokens。

适当降低该值可以减少采样时间。

top_p

1.0

Float

控制要考虑的前几个tokens的累积概率的浮点数。必须在 (0, 1] 范围内。设置为 1 表示考虑所有toekns。

temperature

1.0

Float

控制采样的随机性的浮点数。较低的值使模型更加确定性,较高的值使模型更加随机。0表示贪婪采样。

stop

None

None/Str/List

用于停止生成的字符串列表。返回的输出将不包含停止字符串。

例如:["你", "好"],生成文本时遇到"你"或者"好"将停止文本生成。

stop_token_ids

None

List

用于停止生成的token列表。返回的输出将包含停止tokens,除非停止tokens是特殊tokens。

ignore_eos

False

Bool

是否忽略EOS tokens并继续生成EOS tokens后的tokens。False表示不忽略。

presence_penalty

0.0

Float

基于生成文本中新tokens是否已出现来对其进行惩罚的浮点数。大于0的值鼓励模型使用新的tokens,小于0的值鼓励模型重复使用tokens。

取值范围为[-2, 2]

frequency_penalty

0.0

Float

基于生成文本中新tokens的频率来对其进行惩罚的浮点数。大于0的值鼓励模型使用新的tokens,小于0的值鼓励模型重复使用tokens。

取值范围为[-2, 2]

skip_special_tokens

True

Bool

是否跳过输出中的特殊tokens。默认为True,表示跳过。

stream

False

Bool

是否开启流式推理。默认为False,表示不开启流式推理。

查看返回是否符合预期

support.huaweicloud.com/bestpractice-modelarts/modelarts_10_1904.html