检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
加速原理与安装AITurbo SDK 背景 当前,大模型训练往往使用成百上千加速卡训练几周到几个月不等。在训练过程中,故障导致训练中断经常发生。训练程序一般采用周期 checkpoint方案来将训练状态持久化到存储,当发生故障时,训练程序能恢复到故障之前的模型和优化器的状态继续训
Turbo缓存中,中间缓存数据可被下游业务环节继续读取并处理,结果数据可以异步方式导出到关联的OBS对象存储中进行长期低成本存储。同时,您还可以配置缓存数据淘汰功能,及时将长期未访问的数据从SFS Turbo缓存中淘汰,释放SFS Turbo高性能缓存空间。 使用限制 支持存储联动的SFS Turbo文件系统规格有:
String 要创加密文件系统,该字段传KMS服务专业版密钥的ID。 dedicated_flavor 否 String 创专属文件系统,要创建的虚拟机的规格。 dedicated_storage_id 否 String 创专属文件系统,要指定一个专属分布式存储的ID。 expand_type