检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
应用场景 SFS Turbo为用户提供一个完全托管的共享文件存储,能够弹性伸缩至PB级规模,最高可提供亚毫秒级低时延、百万级IOPS、百GB带宽。具备高可用性和持久性,为海量的小文件、低延迟高IOPS型应用提供有力支持。 适用于多种应用场景,包括AI训练、AIGC、自动驾驶、渲染、
通过AITurbo加速保存与加载checkpoint 背景 当前,大模型训练往往使用成百上千加速卡训练几周到几个月不等。在训练过程中,故障导致训练中断经常发生。训练程序一般采用周期checkpoint方案来将训练状态持久化到存储,当发生故障时,训练程序能恢复到故障之前的模型和优化器的状态继续训练
SFS Turbo监控指标说明 功能说明 本节定义了高性能弹性文件服务上报云监控的监控指标的命名空间,监控指标列表和维度定义,用户可以通过管理控制台或云监控提供的API接口来查询监控指标。 命名空间 SYS.EFS 监控指标 表1 高性能弹性文件服务支持的监控指标 指标ID 指标名称