AI开发平台MODELARTS-PyTorch迁移精度调优:精度调优总体思路

时间:2024-09-24 10:50:18

精度调优总体思路

精度问题定位首先要能在昇腾环境上稳定地复现问题,大模型训练通常使用多机训练,而多机训练复现问题的成本通常较高,且直接使用工具可能会产生TB级的大量dump数据,存储和复制都比较困难,所以建议用户在复现前先进行模型裁剪,例如减小模型层数(通过num_layers参数控制)、将模型转为单机训练等,这样会大大降低后续定位的难度。在问题复现后,可以进一步根据问题现象选择对应的工具辅助定位,包括溢出检测工具、API预检工具、整网dump比对工具等,通过多组试验比较标杆(GPU/CPU)环境和昇腾环境上运行训练时的差异点来判断问题所在、整体流程如下图所示,更多介绍可参考昇腾精度调试指南

图1 精度调优流程

溢出检测和dump比对是通过在PyTorch模型中注入hook从而dump模型训练过程的输入输出数据,比对NPU环境和标杆环境的所有输入输出的差异来发现异常信息。更多介绍可参考精度比对工具ptdbg-ascend

API精度预检是通过提取模型中所有的API前反向信息,通过工具构造相应的API单元测试,将NPU输出与标杆比对,从而检测出精度有差异的API。更多介绍可参考精度预检工具api_accuracy_checker

support.huaweicloud.com/bestpractice-modelarts/modelarts_10_2504.html