AI开发平台MODELARTS-使用AWQ量化:步骤二 权重格式离线转换(可选)
步骤二 权重格式离线转换(可选)
在GPU上AutoAWQ量化完成后,使用int32对int4的权重进行打包。昇腾上使用int8对权重进行打包,在线转换会增加启动时间,可以提前对权重进行转换以减少启动时间,转换步骤如下:
进入llm_tools/AutoAWQ代码目录下执行以下脚本:
执行时间预计10分钟。执行完成后会将权重路径下的原始权重替换成转换后的权重。如需保留之前权重格式,请在转换前备份。
python convert_awq_to_npu.py --model /home/ma-user/Qwen1.5-72B-Chat-AWQ
参数说明:
model:模型路径。