AI开发平台MODELARTS-引言

时间：2024-12-30 17:37:11

AI开发平台MODELARTS

引言

训练精度问题是多种因素共同作用的结果，主要表现是训练过程的Loss不收敛、Loss收敛不符合预期或者Loss收敛趋势符合预期，但是模型评测结果表现不佳。影响模型Loss收敛的原因是多方面的：首先，数据问题可能导致不收敛，例如数据预处理不完善；其次，模型的训练超参数也同样会导致类似的情况；另外，网络随机参数初始化差异以及典型场景（例如Dropout和数据集Shuffle等操作）都可能在训练阶段Loss层面引入误差；再者，模型本身的算法设计过程也可能会引入不收敛情况；最后，则是不符合预期的计算或者通信导致的模型收敛问题。在迁移流程中，一般已经有模型训练的标杆，因此主要关注昇腾软件栈引入的精度偏差即可。由于昇腾芯片和GPU芯片的架构差异（包括不同架构下的GPU芯片），收到数值计算精度的影响，在软件实现上也存在微小的偏差。一般来说，只要数值差异在特定的容忍范围内，不会影响模型的最终收敛。

父主题： PyTorch迁移精度调优

上一篇：云解析服务 DNS-共享内网域名:共享内网域名简介

下一篇：AI开发平台MODELARTS-Msprobe梯度监控