AI开发平台MODELARTS-推理服务部署:Step5 启动推理服务

时间:2024-04-30 18:09:29

Step5 启动推理服务

  1. 配置推理服务需要的环境变量。
    export ATB_LAYER_INTERNAL_TENSOR_REUSE=1
  2. 配置需要使用的NPU卡,例如:实际使用的是第1张和第2张卡,此处填写为0,1,以此类推。
    export ASCEND_RT_VISIBLE_DEVI CES =0,1

    NPU卡编号可以通过命令npu-smi info查询。

  3. 配置使用的显存,376T配置56,280T配置26。
    export MAX_MEMORY_GB=56
  4. 启动推理服务,本服务使用的开源服务框架是TGI,具体命令参考https://huggingface.co/docs/text-generation-inference/main/en/basic_tutorials/launcher。该版本不支持https和身份认证机制。

    可以根据官网说明修改参数。推荐参数配置如下。

    表1 推理服务启动参数表

    参数配置

    推荐值

    参数说明

    --max-input-length

    1024

    推理时最大输入的tokens数量,默认值为1024,可以根据实际修改。该参数会影响推理性能。

    --max-total-tokens

    2048

    推理时最大输入+最大输出的tokens数量,默认值为2048,可以根据实际修改。该参数会影响推理性能。

    --max-batch-prefill-tokens

    4096

    在prefill阶段,最多会使用多少token,一般为--max-input-length的整数倍。该参数会影响推理性能。

    --trust-remote-code

    是否相信远程代码。

    --max-waiting-tokens

    1

    推理进行时,新到达的请求需要等待多少增量推理后,切换成全量推理。

    --max-concurrent-requests

    1000

    最大同时处理的请求数,超过后拒绝访问。

    --waiting-served-ratio

    0.2

    当等待的请求数量达到增量推理的多少比例后,切换成全量推理。

    TGI服务需要safetensor的权重格式,如果权重格式不是safetensor,首次启动时,需要先将权重转换成safetensor格式(自动进行)。首次启动耗时在5~10分钟。

    如果权重格式包含safetensor,启动时间在1~3分钟。服务启动后,会打印如下信息。

    2024-01-22T03:27:22.252926Z  INFO text_generation_router: router/src/main.rs:239: Setting max batch total tokens to 970242024-01-22T03:27:22.252952Z  INFO text_generation_router: router/src/main.rs:240: Connected
support.huaweicloud.com/bestpractice-modelarts/modelarts_10_1571.html