搜索_华为云

创建训练任务 - 高性能弹性文件服务 SFS Turbo

创建训练任务基于SFS Turbo共享文件存储创建ModelArts训练任务。登录ModelArts管理控制台。在左侧导航栏中选择“训练管理 > 训练作业”，进入“训练作业”列表。单击右上角的“创建训练作业”，进入“创建训练作业”页面，在该页面填写训练作业相关参数信息。

帮助中心 > 高性能弹性文件服务 SFS Turbo > 最佳实践 > 面向AI场景使用OBS+SFS Turbo的存储加速实践 > 实施步骤 > 训练
训练 - 高性能弹性文件服务 SFS Turbo

训练上传数据至OBS并预热到SFS Turbo中创建训练任务父主题：实施步骤

 帮助中心 > 高性能弹性文件服务 SFS Turbo > 最佳实践 > 面向AI场景使用OBS+SFS Turbo的存储加速实践 > 实施步骤
面向AI场景使用OBS+SFS Turbo的存储加速方案概述 - 高性能弹性文件服务 SFS Turbo

Turbo高性能，加速训练过程训练数据集高速读取，避免GPU/NPU因存储I/O等待产生空闲，提升GPU/NPU利用率。大模型TB级Checkpoint文件秒级保存和加载，减少训练任务中断时间。 3 数据导入导出异步化，不占用训练任务时长，无需部署外部迁移工具训练任务开始前将数据从OBS导入到SFS

帮助中心 > 高性能弹性文件服务 SFS Turbo > 最佳实践 > 面向AI场景使用OBS+SFS Turbo的存储加速实践
通过跨服务器迁移数据至SFS Turbo（rclone工具） - 高性能弹性文件服务 SFS Turbo

y/g/n> y Enter the password: password:(client2机器的登录密码) Confirm the password: password:(确认client2机器的登录密码) Path to PEM-encoded private key file,

帮助中心 > 高性能弹性文件服务 SFS Turbo > 最佳实践 > SFS Turbo数据迁移实践
通过AITurbo加速保存与加载checkpoint - 高性能弹性文件服务 SFS Turbo

oint 背景当前，大模型训练往往使用成百上千加速卡训练几周到几个月不等。在训练过程中，故障导致训练中断经常发生。训练程序一般采用周期checkpoint方案来将训练状态持久化到存储，当发生故障时，训练程序能恢复到故障之前的模型和优化器的状态继续训练。原生Pytorch系框架在

 帮助中心 > 高性能弹性文件服务 SFS Turbo > 用户指南
通过公网迁移本地数据至云上SFS Turbo - 高性能弹性文件服务 SFS Turbo

y/g/n> y Enter the password: password:(client2机器的登录密码) Confirm the password: password:(确认client2机器的登录密码) Path to PEM-encoded private key file,

帮助中心 > 高性能弹性文件服务 SFS Turbo > 用户指南 > 数据迁移
上传数据至OBS并预热到SFS Turbo中 - 高性能弹性文件服务 SFS Turbo

将数据从OBS预热到SFS Turbo中 SFS Turbo HPC型文件系统绑定OBS桶后，可以使用数据预热功能，以减少后续训练首次访问数据耗时。训练任务开始前可通过数据预热功能将文件元数据和数据内容全部从OBS导入到SFS Turbo高性能文件存储中，数据预热功能的具体操作请参考创建SFS

帮助中心 > 高性能弹性文件服务 SFS Turbo > 最佳实践 > 面向AI场景使用OBS+SFS Turbo的存储加速实践 > 实施步骤 > 训练
常见问题 - 高性能弹性文件服务 SFS Turbo

可以只使用SFS Turbo HPC型文件系统支撑AI训练吗？当数据规模较小，不存在冷热数据分级降本诉求，又希望能方便快捷的构建AI训练系统时，可以选择只使用SFS Turbo高性能文件存储支撑AI训练。可以基于OBS对象存储支撑AI自动驾驶、大模型训练吗？ OBS为容量型存储，在时延、带宽

 帮助中心 > 高性能弹性文件服务 SFS Turbo > 最佳实践 > 面向AI场景使用OBS+SFS Turbo的存储加速实践
SFS Turbo文件系统使用空间不足，可以扩容吗 - 高性能弹性文件服务 SFS Turbo

s/TiB等类型的SFS Turbo文件系统：支持在线扩容，扩容过程中，正在挂载使用的连接可能存在30%左右的性能抖动；标准型、性能型、标准型-增强版（停售）和性能型-增强版（停售）等类型的SFS Turbo文件系统：支持在线扩容，扩容过程中挂载文件系统可能失败，正在挂载使用的

 帮助中心 > 高性能弹性文件服务 SFS Turbo > 常见问题 > SFS Turbo扩容类问题
管理SFS Turbo文件系统与OBS桶的存储联动 - 高性能弹性文件服务 SFS Turbo

管理SFS Turbo文件系统与OBS桶的存储联动概述 AI训练和推理、高性能数据预处理、EDA、渲染、仿真等场景下，您可以通过SFS Turbo文件系统来加速OBS对象存储中的数据访问。SFS Turbo文件系统支持无缝访问存储在OBS对象存储桶中的对象。您可以指定SFS T

帮助中心 > 高性能弹性文件服务 SFS Turbo > 用户指南
配置SFS Turbo数据自动导出到OBS桶 - 高性能弹性文件服务 SFS Turbo

配置SFS Turbo数据自动导出到OBS桶配置自动导出后，训练过程中周期性写入SFS Turbo文件系统的Checkpoint模型文件会自动以异步方式导出到关联的OBS桶中进行长期保存，无需手工导出，异步导出方式不会占用上层训练任务时间。 SFS Turbo的自动导出功能当前处于受限

 帮助中心 > 高性能弹性文件服务 SFS Turbo > 最佳实践 > 面向AI场景使用OBS+SFS Turbo的存储加速实践 > 实施步骤 > 基本配置
资源和成本规划 - 高性能弹性文件服务 SFS Turbo

资源和成本规划本节介绍最佳实践中资源规划情况，包含以下内容：表1 资源和成本规划内容说明维度说明资源规划 OBS：存放训练数据集、预训练模型等数据资源的桶，桶存储类别为“标准存储”，桶策略为“私有”。 SFS Turbo：文件系统类型为“HPC型”，存储类型请根据存储容

 帮助中心 > 高性能弹性文件服务 SFS Turbo > 最佳实践 > 面向AI场景使用OBS+SFS Turbo的存储加速实践
提升单客户端访问SFS Turbo的性能（Linux） - 高性能弹性文件服务 SFS Turbo

客户端与服务端之间建立多条TCP连接来提升吞吐性能。前提条件 Linux内核为5.3及以上版本。当客户端与服务端之间网络延迟较高（例如在线下IDC访问云上NFS文件系统和跨Region挂载NFS文件系统的场景下），且您需要达到较高的带宽或IOPS时，建议开启该功能；开启nc

帮助中心 > 高性能弹性文件服务 SFS Turbo > 用户指南 > 性能调优
应用场景 - 高性能弹性文件服务 SFS Turbo

日志存储、文件共享、内容管理、网站日志存储、文件共享、内容管理、网站 AI训练、自动驾驶、EDA仿真、渲染、企业NAS应用、高性能web应用 AI训练、自动驾驶、EDA仿真、渲染、企业NAS应用、高性能web应用大规模AI训练、AI大模型、AIGC 大规模AI训练、AI大模型、AIGC 表2 SFS Turbo上一代文件系统

 帮助中心 > 高性能弹性文件服务 SFS Turbo > 产品介绍
提升Linux操作系统单客户端访问SFS Turbo的性能 - 高性能弹性文件服务 SFS Turbo

客户端与服务端之间建立多条TCP连接来提升吞吐性能。前提条件 Linux内核为5.3及以上版本。当客户端与服务端之间网络延迟较高（例如在线下IDC访问云上NFS文件系统和跨Region挂载NFS文件系统的场景下），且您需要达到较高的带宽或IOPS时，建议开启该功能；开启nc

帮助中心 > 高性能弹性文件服务 SFS Turbo > 最佳实践
实施步骤 - 高性能弹性文件服务 SFS Turbo

实施步骤创建资源基本配置训练例行维护父主题：面向AI场景使用OBS+SFS Turbo的存储加速实践

 帮助中心 > 高性能弹性文件服务 SFS Turbo > 最佳实践 > 面向AI场景使用OBS+SFS Turbo的存储加速实践
操作流程 - 高性能弹性文件服务 SFS Turbo

Turbo和OBS联动。配置SFS Turbo数据自动导出到OBS桶。配置SFS Turbo数据淘汰策略。 4 训练上传数据至OBS并预热到SFS Turbo中。创建训练任务。 5 例行运维使用OBS+SFS Turbo的存储加速方案的过程中，您可以进行采取以下运维措施，保证系统正常高效运行：

帮助中心 > 高性能弹性文件服务 SFS Turbo > 最佳实践 > 面向AI场景使用OBS+SFS Turbo的存储加速实践
SFS Turbo文件系统子状态 - 高性能弹性文件服务 SFS Turbo

SFS Turbo文件系统子状态 SFS Turbo文件系统子状态要素说明返回值说明 121 在线扩容中。 221 在线扩容成功。 321 在线扩容失败。父主题：公共参数

 帮助中心 > 高性能弹性文件服务 SFS Turbo > API参考 > 公共参数
文件系统类型 - 高性能弹性文件服务 SFS Turbo

日志存储、文件共享、内容管理、网站日志存储、文件共享、内容管理、网站 AI训练、自动驾驶、EDA仿真、渲染、企业NAS应用、高性能web应用 AI训练、自动驾驶、EDA仿真、渲染、企业NAS应用、高性能web应用大规模AI训练、AI大模型、AIGC 大规模AI训练、AI大模型、AIGC 表2 SFS Turbo上一代文件系统

 帮助中心 > 高性能弹性文件服务 SFS Turbo > 产品介绍
例行维护 - 高性能弹性文件服务 SFS Turbo

Turbo文件系统的性能使用情况。当AI算力集群规模变大，大模型参数量变大，导致Checkpoint读加载时间变长时，或训练数据集加载由于存储读写带宽不足导致拖慢AI训练时，您可以对SFS Turbo进行性能扩容，以缩短数据加载时长。详情可参见SFS Turbo监控指标说明和创建告警规则。

帮助中心 > 高性能弹性文件服务 SFS Turbo > 最佳实践 > 面向AI场景使用OBS+SFS Turbo的存储加速实践 > 实施步骤

总条数： 31

点击加载更多

您搜索到想要的结果了吗？

是的没搜到

意见反馈

/200

提交反馈取消

创建训练任务 - 高性能弹性文件服务 SFS Turbo

训练 - 高性能弹性文件服务 SFS Turbo

面向AI场景使用OBS+SFS Turbo的存储加速方案概述 - 高性能弹性文件服务 SFS Turbo

通过跨服务器迁移数据至SFS Turbo（rclone工具） - 高性能弹性文件服务 SFS Turbo

通过AITurbo加速保存与加载checkpoint - 高性能弹性文件服务 SFS Turbo

通过公网迁移本地数据至云上SFS Turbo - 高性能弹性文件服务 SFS Turbo

上传数据至OBS并预热到SFS Turbo中 - 高性能弹性文件服务 SFS Turbo

常见问题 - 高性能弹性文件服务 SFS Turbo

SFS Turbo文件系统使用空间不足，可以扩容吗 - 高性能弹性文件服务 SFS Turbo

管理SFS Turbo文件系统与OBS桶的存储联动 - 高性能弹性文件服务 SFS Turbo

配置SFS Turbo数据自动导出到OBS桶 - 高性能弹性文件服务 SFS Turbo

资源和成本规划 - 高性能弹性文件服务 SFS Turbo

提升单客户端访问SFS Turbo的性能（Linux） - 高性能弹性文件服务 SFS Turbo

应用场景 - 高性能弹性文件服务 SFS Turbo

提升Linux操作系统单客户端访问SFS Turbo的性能 - 高性能弹性文件服务 SFS Turbo

实施步骤 - 高性能弹性文件服务 SFS Turbo

操作流程 - 高性能弹性文件服务 SFS Turbo

SFS Turbo文件系统子状态 - 高性能弹性文件服务 SFS Turbo

文件系统类型 - 高性能弹性文件服务 SFS Turbo

例行维护 - 高性能弹性文件服务 SFS Turbo

意见反馈

7*24

备案

专业服务

退订

建议反馈

售前咨询热线