华为云首页用户手册

AI开发平台MODELARTS-使用kv-cache-int8量化:Step3 启动kv-cache-int8量化服务

AI开发平台MODELARTS-使用kv-cache-int8量化:Step3 启动kv-cache-int8量化服务

时间：2025-03-12 09:40:22

AI开发平台MODELARTS

Step3 启动kv-cache-int8量化服务

参考Step3 启动推理服务，启动推理服务时添加如下命令。

--kv-cache-dtype int8  #只支持int8，表示kvint8量化
--quantization-param-path kv_cache_scales.json  #输入Step2 抽取kv-cache量化系数生成的json文件路径; 如果只测试推理功能和性能，不需要此json文件，此时scale系数默认为1，但是可能会造成精度下降。

上一篇：AI开发平台MODELARTS-使用kv-cache-int8量化:Step1使用tensorRT量化工具进行模型量化

下一篇：AI开发平台MODELARTS-使用kv-cache-int8量化:Step1使用tensorRT量化工具进行模型量化

开年采购季抽奖赢万元免单

立即前往

续费同价 L实例 2核2G 4M

98元/年

企业专享 X实例 2核4G 5M

198元/年

热门域名 1元随心购

1元/年起

AI开发平台MODELARTS-使用kv-cache-int8量化:Step3 启动kv-cache-int8量化服务

意见反馈

0/200

提交成功！非常感谢您的反馈，我们会继续努力做到更好反馈提交失败！请稍后重试！

推荐文章

解决方案
相关专题