AI开发平台MODELARTS-使用AWQ量化:步骤二 权重格式离线转换(可选)

时间:2024-12-25 09:49:49

步骤二 权重格式离线转换(可选)

在GPU上AutoAWQ量化完成后,使用int32对int4的权重进行打包。昇腾上使用int8对权重进行打包,在线转换会增加启动时间,可以提前对权重进行转换以减少启动时间,转换步骤如下:

进入llm_tools/AutoAWQ代码目录下执行以下脚本:

执行时间预计10分钟。执行完成后会将权重路径下的原始权重替换成转换后的权重。如需保留之前权重格式,请在转换前备份。

python convert_awq_to_npu.py --model /home/ma-user/Qwen1.5-72B-Chat-AWQ

参数说明:

model:模型路径。

support.huaweicloud.com/bestpractice-modelarts/modelarts_llm_infer_91110.html