AI开发平台MODELARTS-推理服务部署:Step5 启动推理服务
Step5 启动推理服务
- 配置推理服务需要的环境变量。
export ATB_LAYER_INTERNAL_TENSOR_REUSE=1
- 配置需要使用的NPU卡,例如:实际使用的是第1张和第2张卡,此处填写为0,1,以此类推。
export ASCEND_RT_VISIBLE_DEVI CES =0,1
NPU卡编号可以通过命令npu-smi info查询。
- 配置使用的显存,376T配置56,280T配置26。
export MAX_MEMORY_GB=56
- 启动推理服务,本服务使用的开源服务框架是TGI,具体命令参考https://huggingface.co/docs/text-generation-inference/main/en/basic_tutorials/launcher。该版本不支持https和身份认证机制。
可以根据官网说明修改参数。推荐参数配置如下。
表1 推理服务启动参数表 参数配置
推荐值
参数说明
--max-input-length
1024
推理时最大输入的tokens数量,默认值为1024,可以根据实际修改。该参数会影响推理性能。
--max-total-tokens
2048
推理时最大输入+最大输出的tokens数量,默认值为2048,可以根据实际修改。该参数会影响推理性能。
--max-batch-prefill-tokens
4096
在prefill阶段,最多会使用多少token,一般为--max-input-length的整数倍。该参数会影响推理性能。
--trust-remote-code
无
是否相信远程代码。
--max-waiting-tokens
1
推理进行时,新到达的请求需要等待多少增量推理后,切换成全量推理。
--max-concurrent-requests
1000
最大同时处理的请求数,超过后拒绝访问。
--waiting-served-ratio
0.2
当等待的请求数量达到增量推理的多少比例后,切换成全量推理。
TGI服务需要safetensor的权重格式,如果权重格式不是safetensor,首次启动时,需要先将权重转换成safetensor格式(自动进行)。首次启动耗时在5~10分钟。
如果权重格式包含safetensor,启动时间在1~3分钟。服务启动后,会打印如下信息。
2024-01-22T03:27:22.252926Z INFO text_generation_router: router/src/main.rs:239: Setting max batch total tokens to 970242024-01-22T03:27:22.252952Z INFO text_generation_router: router/src/main.rs:240: Connected
- ModelArts推理部署_AI应用_部署服务-华为云
- ModelArts推理部署_服务_访问公网-华为云
- ModelArts推理部署_在线服务_访问在线服务-华为云
- ModelArts推理部署_OBS导入_模型包规范-华为云
- ModelArts推理部署_模型_AI应用来源-华为云
- ModelArts推理部署_纳管Atlas 500_边缘服务-华为云
- ModelArts推理部署_创建AI应用_自定义镜像规范-华为云
- ModelArts模型训练_创建训练作业_如何创建训练作业
- ModelArts是什么_AI开发平台_ModelArts功能
- 华为云内容审核服务_内容审核有什么作用_华为云内容审核的优势