高性能弹性文件服务 SFS TURBO-加速原理与安装AITurbo SDK:背景

时间：2024-11-22 09:41:08

背景

当前，大模型训练往往使用成百上千加速卡训练几周到几个月不等。在训练过程中，故障导致训练中断经常发生。训练程序一般采用周期 checkpoint方案来将训练状态持久化到存储，当发生故障时，训练程序能恢复到故障之前的模型和优化器的状态继续训练。原生Pytorch系框架在保存checkpoint时均直接持久化到存储系统，耗时与模型大小、存储的IO性能等密切相关，往往需要几分钟到几十分钟不等，为了保证训练状态的一致性，保存checkpoint时训练必须暂停，保存时间影响了训练过程的整体效率。当发生故障，训练程序从已有checkpoint恢复时，每张卡都需要从持久化存储中加载，在训练集群规模较大，存储带宽较低的场景下，加载耗时可能会达到小时级，严重影响训练恢复。因此，我们在AITurbo SDK中提供了快速保存和加载checkpoint的功能，当前流行的两种大模型训练框架Megatron和DeepSpeed进行简单适配便可使用。

上一篇：高性能弹性文件服务 SFS TURBO-加速原理与安装AITurbo SDK:加速保存checkpoint

下一篇：高性能弹性文件服务 SFS TURBO-加速原理与安装AITurbo SDK:加速保存checkpoint