AI开发平台MODELARTS-使用kv-cache-int8量化:Step3 启动kv-cache-int8量化服务

时间:2024-11-12 16:42:40

Step3 启动kv-cache-int8量化服务

参考Step3 启动推理服务,启动推理服务时添加如下命令。

--kv-cache-dtype int8  #只支持int8,表示kvint8量化
--quantization-param-path kv_cache_scales.json  #输入Step2 抽取kv-cache量化系数生成的json文件路径; 如果只测试推理功能和性能,不需要此json文件,此时scale系数默认为1,但是可能会造成精度下降。
support.huaweicloud.com/bestpractice-modelarts/modelarts_llm_infer_90955.html