检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
Turbo后,可直接在ModelArts的Notebook开发及训练环境中挂载SFS Turbo共享文件系统,并访问其中的数据。 登录ModelArts管理控制台,创建网络并打通创建资源中创建的创建虚拟私有云和子网,详细步骤参见ModelArts网络。 单击1中创建生成的资源池“网络”所在行的“更多”,选择“关联sfsturbo”。
面向AI场景使用OBS+SFS Turbo的存储加速实践 方案概述 资源和成本规划 操作流程 实施步骤 常见问题
如何提高SFS Turbo文件系统拷贝和删除操作的效率? Linux常用cp、rm、tar命令,默认属于串行操作,无法发挥网络文件系统的并发优势,需要用户并发执行以上命令,提升执行效率。 父主题: 其他类
训练数据的读取要尽量读得快,减少计算对 I/O 的等待,而 Checkpoint主要要求高吞吐、减少训练中断的时间。 文件接口方式的数据共享访问:由于 AI 架构需要使用到大规模的计算集群(GPU/NPU服务器),集群中的服务器访问的数据来自一个统一的数据源,即一个共享的存储空间
应用场景 华为云通用文件系统和SFS Turbo提供各种规格的文件存储,您可以根据业务需求选择其中一种或几种文件系统,为业务运转提供必要的可靠性、安全性和持续性。 您可以根据以下文件存储的对比情况,选用适合您业务场景的文件系统或提交工单联系技术支持人员支撑您的选择。 通用文件系统 通
在“生命周期管理”页签,单击“更多”下的“复制”,弹出如图3所示对话框。 图3 复制生命周期规则 选择复制源,即生命周期规则所在的源文件系统。 从源文件系统复制生命周期规则的操作为增量复制,不会删除当前文件系统已存在的生命周期规则,与已存在的生命周期规则冲突的规则不会复制。 您可以按需移除不需要复制的生命周期规则。
弹性文件服务提供了SFS容量型、通用文件系统和SFS Turbo三种类型的文件系统。 以下表格介绍了各类型文件系统的特点、优势及应用场景。 SFS容量型 表1 SFS容量型文件系统 参数 说明 最大带宽 2GB/s 最高IOPS 2K 时延 3~20ms 最大容量 4PB 优势 大容量、高带宽、低成本
资源和成本规划 本节介绍最佳实践中资源规划情况,包含以下内容: 表1 资源和成本规划内容说明 维度 说明 资源规划 OBS:存放训练数据集、预训练模型等数据资源的桶,桶存储类别为“标准存储”,桶策略为“私有”。 SFS Turbo:文件系统类型为“HPC型”,存储类型请根据存储容
同一区域跨多个可用区的云服务器可以访问同一文件系统,实现多台云服务器共同访问和分享文件。 弹性扩展 弹性文件服务可以根据您的使用需求,在不中断应用的情况下,增加或者缩减文件系统的容量。一键式操作,轻松完成您的容量定制。 高性能、高可靠性 性能随容量增加而提升,同时保障数据的高持久度,满足业务增长需求。
OBS区域域名,即OBS的终端节点。 OBS存储桶必须和SFS Turbo文件系统在同一个Region。 不支持 勾选“将OBS桶的读写权限通过桶策略授权给SFS Turbo云服务”。 单击“确定”,完成绑定。 指定导入目录和文件的默认权限,请参考《高性能弹性文件服务API参考》的“绑定后端存
建隔离的、用户自主配置和管理的虚拟网络环境,提升用户云上资源的安全性,简化用户的网络部署。 您可以在VPC中定义安全组、VPN、IP地址段、带宽等网络特性。用户可以通过VPC方便地管理、配置内部网络,进行安全、快捷的网络变更。同时,用户可以自定义安全组内与组间弹性云服务器的访问规则,加强弹性云服务器的安全保护。
华为云:负责云服务自身的安全,提供安全的云。华为云的安全责任在于保障其所提供的 IaaS、PaaS 和 SaaS 类云服务自身的安全,涵盖华为云数据中心的物理环境设施和运行其上的基础服务、平台服务、应用服务等。这不仅包括华为云基础设施和各项云服务技术的安全功能和性能本身,也包括运维运营安全,以及更广义的安全合规遵从。
训练 上传数据至OBS并预热到SFS Turbo中 创建训练任务 父主题: 实施步骤
本文档介绍面向AI场景如何使用OBS+SFS Turbo的存储加速,流程如图1所示。 图1 面向AI场景使用OBS+SFS Turbo的存储加速方案步骤 表1 面向AI场景使用OBS+SFS Turbo的存储加速流程说明 序号 步骤 说明 1 规划组网和资源 此步骤请提交工单联系技术支持人员进行支撑配置。
实施步骤 创建资源 基本配置 训练 例行维护 父主题: 面向AI场景使用OBS+SFS Turbo的存储加速实践
常见问题 可以只使用SFS Turbo HPC型文件系统支撑AI训练吗? 当数据规模较小,不存在冷热数据分级降本诉求,又希望能方便快捷的构建AI训练系统时,可以选择只使用SFS Turbo高性能文件存储支撑AI训练。 可以基于OBS对象存储支撑AI自动驾驶、大模型训练吗? OBS
如果显示“未找到服务”,请检查“区域”是否和终端节点服务所在区域一致或输入的“服务名称”是否正确。如果仍未解决,可以提交工单进行技术咨询。 虚拟私有云 需要选择与规划的通用文件系统和弹性云服务器所在的虚拟私有云。 标签 可选参数。 终端节点的标识,包括键和值。可以为终端节点创建10个标签。 标签的命名规则请参考表2。
VPC为弹性云服务器构建隔离的、用户自主配置和管理的虚拟网络环境,提升用户云中资源的安全性,简化用户的网络部署。使用弹性文件服务时,文件系统和云服务器归属于同一VPC下才能文件共享。 VPC可以通过网络ACL进行访问控制。网络ACL是对一个或多个子网的访问控制策略系统,根据与子网关联的入站/出站规
Turbo文件系统基于VPC的对等连接功能,实现跨账号访问。更多关于VPC对等连接功能信息和实现方法请参见VPC对等连接。 使用限制 一个文件系统最多可以添加20个可用的VPC,对于添加的VPC所创建的ACL规则总和不能超过400个。 如果已经在VPC控制台删除文件系统绑定的VPC,该VPC
挂载至两种服务器系统的文件系统无法写入数据 现象描述 当将同一个文件系统分别挂载到已创建的Linux云服务器和Windows云服务器后,在Windows云服务器上无法对在Linux云服务器上创建的文件写入数据。 可能原因 由于共享的NFS文件系统归属于root权限,且无法修改该所