AI开发平台MODELARTS-使用kv-cache-int8量化:Step1使用tensorRT量化工具进行模型量化

时间：2025-03-12 09:40:22

AI开发平台MODELARTS

Step1使用tensorRT量化工具进行模型量化

在GPU机器上使用tensorRT 0.9.0版本工具进行模型量化，工具下载使用指导请参见https://github.com/NVIDIA/TensorRT-LLM/tree/v0.9.0。

执行如下脚本进行权重转换生成量化系数，详细参数解释请参见https://github.com/NVIDIA/TensorRT-LLM/tree/main/examples/llama#int8-kv-cache）

python convert_checkpoint.py \
--model_dir ./llama-models/llama-7b-hf   \
--output_dir ./llama-models/llama-7b-hf/int8_kv_cache/ \
--dtype float16  \
--int8_kv_cache

运行完成后，会在output_dir下生成量化后的权重。量化后的权重包括原始权重和kvcache的scale系数。

上一篇：AI开发平台MODELARTS-使用kv-cache-int8量化:Step3 启动kv-cache-int8量化服务

下一篇：AI开发平台MODELARTS-使用kv-cache-int8量化:Step3 启动kv-cache-int8量化服务

开年采购季抽奖赢万元免单

立即前往

续费同价 L实例 2核2G 4M

98元/年

企业专享 X实例 2核4G 5M

198元/年

热门域名 1元随心购

1元/年起

AI开发平台MODELARTS-使用kv-cache-int8量化:Step1使用tensorRT量化工具进行模型量化

意见反馈

0/200

提交取消

提交成功！非常感谢您的反馈，我们会继续努力做到更好反馈提交失败！请稍后重试！

AI开发平台MODELARTS-使用kv-cache-int8量化:Step1使用tensorRT量化工具进行模型量化

AI开发平台MODELARTS-使用kv-cache-int8量化:Step1使用tensorRT量化工具进行模型量化

Step1使用tensorRT量化工具进行模型量化

7*24

备案

专业服务

退订

建议反馈

售前咨询热线