华为云首页用户手册

AI开发平台MODELARTS-使用kv-cache-int8量化:Step3 启动kv-cache-int8量化服务

AI开发平台MODELARTS-使用kv-cache-int8量化:Step3 启动kv-cache-int8量化服务

时间：2024-12-17 18:06:49

AI开发平台MODELARTS 推理模型量化

Step3 启动kv-cache-int8量化服务

在使用OpenAI接口或vLLM接口启动推理服务时添加如下参数：

--kv-cache-dtype int8  #只支持int8，表示kvint8量化
--quantization-param-path kv_cache_scales.json  #输入Step2 抽取kv-cache量化系数生成的json文件路径; 如果只测试推理功能和性能，不需要此json文件，此时scale系数默认为1，但是可能会造成精度下降。

上一篇：AI开发平台MODELARTS-使用kv-cache-int8量化:Step1使用tensorRT量化工具进行模型量化

下一篇：AI开发平台MODELARTS-使用kv-cache-int8量化:Step1使用tensorRT量化工具进行模型量化

新客秒杀 2核2G 3M L实例

68元/年

普惠上云领千元上云礼券

立即前往

企业专享 X实例 4核8G 5M

888元/年

热门域名 1元随心购

1元/年起

AI开发平台MODELARTS-使用kv-cache-int8量化:Step3 启动kv-cache-int8量化服务

意见反馈

0/200

提交成功！非常感谢您的反馈，我们会继续努力做到更好反馈提交失败！请稍后重试！

推荐文章

解决方案
相关专题