AI开发平台MODELARTS-使用kv-cache-int8量化:Step3 启动kv-cache-int8量化服务

时间:2024-12-17 18:06:49

Step3 启动kv-cache-int8量化服务

在使用OpenAI接口或vLLM接口启动推理服务时添加如下参数:

--kv-cache-dtype int8  #只支持int8,表示kvint8量化
--quantization-param-path kv_cache_scales.json  #输入Step2 抽取kv-cache量化系数生成的json文件路径; 如果只测试推理功能和性能,不需要此json文件,此时scale系数默认为1,但是可能会造成精度下降。
support.huaweicloud.com/bestpractice-modelarts/modelarts_llm_infer_91132.html