检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
通过AITurbo加速保存与加载checkpoint 背景 当前,大模型训练往往使用成百上千加速卡训练几周到几个月不等。在训练过程中,故障导致训练中断经常发生。训练程序一般采用周期checkpoint方案来将训练状态持久化到存储,当发生故障时,训练程序能恢复到故障之前的模型和优化
约束与限制 命名类限制 表1 命名类限制 限制项 说明 SFS Turbo文件系统名称 创建的文件系统名称只能由英文字母、数字、下划线和中划线组成,输入长度需大于等于4个字符并小于等于64个字符,并以字母开头。 标签的键 标签的“键”最大长度为128个字符,可以包含任意语种的字母、数字和空格,以及_