AI开发平台MODELARTS-使用kv-cache-int8量化:per-tensor静态量化场景

时间:2024-12-09 20:36:24

per-tensor静态量化场景

在GPU机器上使用tensorRT 0.9.0版本工具进行模型量化,工具下载使用指导请参见https://github.com/NVIDIA/TensorRT-LLM/tree/v0.9.0

量化脚本convert_checkpoint.py存放在TensorRT-LLM/examples路径对应的模型文件夹下,例如:llama模型对应量化脚本的路径是examples/llama/convert_checkpoint.py。

执行convert_checkpoint.py脚本进行权重转换生成量化系数。

support.huaweicloud.com/bestpractice-modelarts/modelarts_llm_infer_91012.html