AI开发平台MODELARTS-PyTorch迁移精度调优:精度调优总体思路
精度调优总体思路
精度问题定位首先要能在昇腾环境上稳定地复现问题,大模型训练通常使用多机训练,而多机训练复现问题的成本通常较高,且直接使用工具可能会产生TB级的大量dump数据,存储和复制都比较困难,所以建议用户在复现前先进行模型裁剪,例如减小模型层数(通过num_layers参数控制)、将模型转为单机训练等,这样会大大降低后续定位的难度。在问题复现后,可以进一步根据问题现象选择对应的工具辅助定位,包括溢出检测工具、API预检工具、整网dump比对工具等,通过多组试验比较标杆(GPU/CPU)环境和昇腾环境上运行训练时的差异点来判断问题所在、整体流程如下图所示,更多介绍可参考昇腾精度调试指南。
溢出检测和dump比对是通过在PyTorch模型中注入hook从而dump模型训练过程的输入输出数据,比对NPU环境和标杆环境的所有输入输出的差异来发现异常信息。更多介绍可参考精度比对工具ptdbg-ascend。
API精度预检是通过提取模型中所有的API前反向信息,通过工具构造相应的API单元测试,将NPU输出与标杆比对,从而检测出精度有差异的API。更多介绍可参考精度预检工具api_accuracy_checker。
- GaussDB数据库参数调优_GaussDB版本_高斯数据库参数调优
- GaussDB性能怎么调_GaussDB性能调优_高斯数据库性能怎么调-华为云
- 文档数据库服务DDS性能调优_MongoDB性能调优_华为云
- GaussDB案例指南_高斯数据库函数_高斯数据库案例指南_华为云
- GaussDB华为部署_高斯数据库_高斯数据库华为部署_华为云
- GaussDB下载免费版_GaussDB怎么样_高斯数据库下载
- GaussDB数据库概念_openGauss_华为高斯数据库概念
- GaussDB数据库云备份_华为GaussDB_高斯数据库云备份
- GaussDB性能_Gaussdb数据库性能_高斯数据库性能-华为云
- GaussDB案例_gaussdb java_高斯数据库案例_华为云