华为云首页用户手册

AI开发平台ModelArts-在推理生产环境中部署推理服务:Step5 推理服务高阶配置（可选）

AI开发平台ModelArts-在推理生产环境中部署推理服务:Step5 推理服务高阶配置（可选）

时间：2025-02-12 15:14:08

AI开发平台ModelArts

Step5 推理服务高阶配置（可选）

如需开启以下高阶配置，请在•创建推理脚本文件run_vllm.sh章节创建的推理脚本run_vllm.sh中增加需要开启的高阶配置。

词表切分
 在分布式场景下，默认不使用词表切分能提升推理性能，同时也会增加单卡的显存占用。不建议开启词表并行，如确需使用词表切分，配置以下环境变量。
```
export USE_VOCAB_PARALLEL=1
```
关闭词表切分的命令：
```
unset USE_VOCAB_PARALLEL
```
配置后重启推理服务生效。

Matmul_all_reduce融合算子
 使用Matmul_all_reduce融合算子能提升全量推理性能，该算子对驱动和固件版本要求较高，默认不开启。如需开启，配置以下环境变量。
```
export USE_MM_ALL_REDUCE_OP=1
```
关闭Matmul_all_reduce融合算子的命令：
```
unset  USE_MM_ALL_REDUCE_OP
```
配置后重启推理服务生效。

查看详细日志
 查看详细耗时日志可以辅助定位性能瓶颈，但会影响推理性能。如需开启，配置以下环境变量。
```
export DETAIL_TIME_ LOG =1export RAY_DEDUP_LOGS=0
```
关闭详细日志命令：
```
unset  DETAIL_TIME_LOG
```
配置后重启推理服务生效。

上一篇：AI开发平台ModelArts-在推理生产环境中部署推理服务:Step1 准备模型文件和权重文件

下一篇：AI开发平台ModelArts-在推理生产环境中部署推理服务:Step1 准备模型文件和权重文件

新客秒杀 2核2G 3M L实例

68元/年

普惠上云领千元上云礼券

立即前往

企业专享 X实例 4核8G 5M

888元/年

热门域名 1元随心购

1元/年起

AI开发平台ModelArts-在推理生产环境中部署推理服务:Step5 推理服务高阶配置（可选）

意见反馈

0/200

提交成功！非常感谢您的反馈，我们会继续努力做到更好反馈提交失败！请稍后重试！

推荐文章

解决方案
相关专题