AI开发平台MODELARTS-在推理生产环境中部署推理服务:Step5 推理服务高阶配置(可选)

时间:2024-11-12 16:42:22

Step5 推理服务高阶配置(可选)

如需开启以下高阶配置,请在•创建推理脚本文件run_vllm.sh章节创建的推理脚本run_vllm.sh中增加需要开启的高阶配置。

  • 词表切分

    在分布式场景下,默认不使用词表切分能提升推理性能,同时也会增加单卡的显存占用。不建议开启词表并行,如确需使用词表切分,配置以下环境变量。

    export USE_VOCAB_PARALLEL=1

    关闭词表切分的命令:

    unset USE_VOCAB_PARALLEL

    配置后重启推理服务生效。

  • Matmul_all_reduce融合算子

    使用Matmul_all_reduce融合算子能提升全量推理性能,该算子对驱动和固件版本要求较高,默认不开启。如需开启,配置以下环境变量。

    export USE_MM_ALL_REDUCE_OP=1

    关闭Matmul_all_reduce融合算子的命令:

    unset  USE_MM_ALL_REDUCE_OP

    配置后重启推理服务生效。

  • 查看详细日志

    查看详细耗时日志可以辅助定位性能瓶颈,但会影响推理性能。如需开启,配置以下环境变量。

    export DETAIL_TIME_ LOG =1
    export RAY_DEDUP_LOGS=0

    关闭详细日志命令:

    unset  DETAIL_TIME_LOG

    配置后重启推理服务生效。

support.huaweicloud.com/bestpractice-modelarts/modelarts_10_1970.html