AI开发平台MODELARTS-在推理生产环境中部署推理服务:Step5 推理服务高阶配置(可选)
Step5 推理服务高阶配置(可选)
如需开启以下高阶配置,请在•创建推理脚本文件run_vllm.sh章节创建的推理脚本run_vllm.sh中增加需要开启的高阶配置。
- 词表切分
在分布式场景下,默认不使用词表切分能提升推理性能,同时也会增加单卡的显存占用。不建议开启词表并行,如确需使用词表切分,配置以下环境变量。
export USE_VOCAB_PARALLEL=1
关闭词表切分的命令:
unset USE_VOCAB_PARALLEL
配置后重启推理服务生效。
- Matmul_all_reduce融合算子
使用Matmul_all_reduce融合算子能提升全量推理性能,该算子对驱动和固件版本要求较高,默认不开启。如需开启,配置以下环境变量。
export USE_MM_ALL_REDUCE_OP=1
关闭Matmul_all_reduce融合算子的命令:
unset USE_MM_ALL_REDUCE_OP
配置后重启推理服务生效。
- 查看详细日志
查看详细耗时日志可以辅助定位性能瓶颈,但会影响推理性能。如需开启,配置以下环境变量。
export DETAIL_TIME_ LOG =1 export RAY_DEDUP_LOGS=0
关闭详细日志命令:
unset DETAIL_TIME_LOG
配置后重启推理服务生效。
- ModelArts推理部署_服务_访问公网-华为云
- ModelArts推理部署_AI应用_部署服务-华为云
- ModelArts推理部署_在线服务_访问在线服务-华为云
- ModelArts推理部署_OBS导入_模型包规范-华为云
- ModelArts推理部署_模型_AI应用来源-华为云
- ModelArts推理部署_纳管Atlas 500_边缘服务-华为云
- ModelArts推理部署_创建AI应用_自定义镜像规范-华为云
- ModelArts模型训练_创建训练作业_如何创建训练作业
- ModelArts计费说明_计费简介_ModelArts怎么计费
- ModelArts是什么_AI开发平台_ModelArts功能