检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
面向AI场景使用OBS+SFS Turbo的存储加速实践 方案概述 资源和成本规划 操作流程 实施步骤 常见问题
操作流程 本文档介绍面向AI场景如何使用OBS+SFS Turbo的存储加速,流程如图1所示。 图1 面向AI场景使用OBS+SFS Turbo的存储加速方案步骤 表1 面向AI场景使用OBS+SFS Turbo的存储加速流程说明 序号 步骤 说明 1 规划组网和资源 此步骤请提交工单联系技术支持人员进行支撑配置。
实施步骤 创建资源 基本配置 训练 例行维护 父主题: 面向AI场景使用OBS+SFS Turbo的存储加速实践
Integer 导入的文件权限。取值范围是0到777。 第一位表示文件所有者的权限,取值范围是0到7;第二位表示文件所属用户组的权限,取值范围是0到7;第三位表示其他用户的权限,取值范围是0到7。文件所有者由uid指定,文件所属用户组由gid指定,不是文件所有者且不在文件所属用户组的用户为其他用户。
子网:子网是VPC内的IP地址块,同一个VPC下,子网网段不会重复。通过子网提供与其他网络隔离的、可以独享的网络资源,以提高网络安全。 说明: 请选择与您的云服务器相同的VPC,此时能达到最好的网络性能。您也可以通过虚拟私有云的VPC对等连接方式将两个或多个VPC互连,实现多VPC、跨VPC下的文件共享。
训练数据的读取要尽量读得快,减少计算对 I/O 的等待,而 Checkpoint主要要求高吞吐、减少训练中断的时间。 文件接口方式的数据共享访问:由于 AI 架构需要使用到大规模的计算集群(GPU/NPU服务器),集群中的服务器访问的数据来自一个统一的数据源,即一个共享的存储空间
为了提供最佳加速性能,建议SFS Turbo HPC文件系统和ModelArts资源池就近选择在同一个Region的同一个可用区(AZ)。 创建VPC 虚拟私有云可以为您构建隔离的、用户自主配置和管理的虚拟网络环境,操作指导请参考创建虚拟私有云和子网。 创建SFS Turbo HPC型文件系统 创建SFS
常见问题 可以只使用SFS Turbo HPC型文件系统支撑AI训练吗? 当数据规模较小,不存在冷热数据分级降本诉求,又希望能方便快捷的构建AI训练系统时,可以选择只使用SFS Turbo高性能文件存储支撑AI训练。 可以基于OBS对象存储支撑AI自动驾驶、大模型训练吗? OBS
训练 上传数据至OBS并预热到SFS Turbo中 创建训练任务 父主题: 实施步骤
HPC型是按每TB单位容量来提供一定的带宽吞吐,因此当SFS Turbo HPC性能不足时,需要通过容量扩容来提高性能吞吐。 OBS性能监控 您可以在CES云监控服务上监控SFS Turbo关联的OBS桶的性能使用情况,SFS Turbo和OBS之间的数据导入导出速度会受OBS服务的读写带宽上限Qo
基本配置 配置ModelArts和SFS Turbo间网络直通 配置SFS Turbo和OBS联动 配置SFS Turbo数据自动导出到OBS桶 配置SFS Turbo数据淘汰策略 父主题: 实施步骤
创建文件系统,在多个云服务器中挂载使用,实现文件系统的共享访问。 创建文件系统前,确认是否创建VPC和ECS,并将ECS归属到已创建的VPC下。如果VPC不一致,SFS Turbo可通过VPC对等连接建立与ECS的通信。 本指南以某公司存储文件为例,介绍如何实现文件的共享存储。 Step1 登录管理控制台
500MB/s/TiB、1000MB/s/TiB、HPC缓存型 存储空间 根据文件系统所购买的存储容量和使用时长计费 存储费用=每GB费率*购买容量*使用时长 按需计费 包年包月 带宽费用 HPC缓存型 带宽大小 根据缓存带宽大小和使用时长计费 带宽费用=每GB费率*带宽大小*使用时长
Turbo:增加挂载配置,选择创建资源中创建的SFS Turbo HPC型文件系统。 单击“提交”,完成训练作业的创建。 训练作业创建完成后,后台将自动完成容器镜像下载、代码目录下载、执行启动命令等动作。训练作业一般需要运行一段时间,根据您的训练业务逻辑和选择的资源不同,训练时长将持续几十分钟
Integer 导入的文件权限。取值范围是0到777。 第一位表示文件所有者的权限,取值范围是0到7;第二位表示文件所属用户组的权限,取值范围是0到7;第三位表示其他用户的权限,取值范围是0到7。文件所有者由uid指定,文件所属用户组由gid指定,不是文件所有者且不在文件所属用户组的用户为其他用户。
后端存储自动导出到OBS桶的数据更新类型。 NEW:表示新增数据,SFS Turbo联动目录下创建的文件,及之后对这些文件进行的元数据和数据修改,会被自动同步到OBS桶里。 CHANGED:表示修改数据,从OBS桶里导入到SFS Turbo联动目录下的文件,在SFS Turbo上
Integer 导入的文件权限。取值范围是0到777。 第一位表示文件所有者的权限,取值范围是0到7;第二位表示文件所属用户组的权限,取值范围是0到7;第三位表示其他用户的权限,取值范围是0到7。文件所有者由uid指定,文件所属用户组由gid指定,不是文件所有者且不在文件所属用户组的用户为其他用户。
云服务监控 > 弹性文件服务 SFS”,在文件系统列表中,单击待查看监控数据的文件系统“操作”列下的“更多 > 查看监控指标”。 您可以选择监控指标项或者监控时间段,查看对应的弹性文件服务监控数据。 关于云监控的其他操作和更多信息,请参考《云监控服务用户指南》。 图1 SFS容量型监控图表
OBS区域域名,即OBS的终端节点。 OBS存储桶必须和SFS Turbo文件系统在同一个Region。 不支持 勾选“将OBS桶的读写权限通过桶策略授权给SFS Turbo云服务”。 单击“确定”,完成绑定。 指定导入目录和文件的默认权限,请参考《高性能弹性文件服务API参考》的“绑定后端存
了解更多常见问题、案例和解决方案 热门案例 是否支持跨VPC访问文件系统? VPC的安全组是否影响弹性文件服务的使用? 同时挂载至两个服务器的文件系统数据存在延时怎么办? 如何购买弹性文件服务? 如何查看资源包的使用量? 如何确认Linux云服务器上的文件系统处于可用状态? 如何在弹性文件服务SFS和对象存储服务OBS之间进行数据迁移?