检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
满足高性能AI训练,建议使用SFS Turbo HPC型高性能文件系统加速AI训练任务,训练速度加快可以节省AI算力费用。 文件系统使用空间不足,可以扩容吗? SFS Turbo文件系统支持在线扩容,扩容过程中挂载文件系统可能失败,建议业务低峰期扩容。 父主题: 面向AI场景使用OBS+SFS
吐性能。 前提条件 Linux内核为5.3及以上版本。 当客户端与服务端之间网络延迟较高(例如在线下IDC访问云上NFS文件系统和跨Region挂载NFS文件系统的场景下),且您需要达到较高的带宽或IOPS时,建议开启该功能; 开启nconnect后对于单并发、小IO数据块等场景
20MB/s/TiB、40MB/s/TiB、125MB/s/TiB、250MB/s/TiB、500MB/s/TiB、1000MB/s/TiB文件系统 调试 您可以在API Explorer中调试该接口,支持自动认证鉴权。API Explorer可以自动生成SDK代码示例,并提供SDK代码示例调试功能。
吐性能。 前提条件 Linux内核为5.3及以上版本。 当客户端与服务端之间网络延迟较高(例如在线下IDC访问云上NFS文件系统和跨Region挂载NFS文件系统的场景下),且您需要达到较高的带宽或IOPS时,建议开启该功能; 开启nconnect后对于单并发、小IO数据块等场景
此步骤请提交工单联系技术支持人员进行支撑配置。 2 创建资源 创建VPC:创建1个虚拟私有云和子网。 创建SFS Turbo HPC型文件系统:创建1个SFS Turbo文件系统,文件系统类型选择“HPC型”,存储类型请根据存储容量和性能需求选择,AI场景建议选择250MB/s/TiB及以上的存储类型。
虚拟网络环境,操作指导请参考创建虚拟私有云和子网。 创建SFS Turbo HPC型文件系统 创建SFS Turbo文件系统,文件系统类型选择“HPC型”,操作指导请参考创建SFS Turbo文件系统。 创建OBS桶 创建OBS桶,存储类别为“标准存储”,桶策略为“私有”,操作指导请参考创建OBS桶。
参数说明如下,transfers和checkers数目可以根据系统规格自行配置: transfers:传输文件的并发数目。 checkers:扫描本地文件的并发数目。 P:数据拷贝进度。 等待数据完成同步后,可前往目标SFS Turbo文件系统查看是否已成功迁移。 父主题: 数据迁移
SFS Turbo数据迁移实践方案概述 SFS Turbo默认只能被云上同一个VPC内的ECS/CCE访问,用户可通过云专线/VPN/对等连接等方式打通网络,实现多种访问方式。 云下或其他云访问: 云专线/VPN 云上同区域同一账号不同VPC: VPC对等连接 云上同区域跨账号访问:
如何将SFS Turbo部署至CCE? 请根据实际的业务情况,阅读存储管理-CSI-存储概述或存储管理-Flexvolume-极速文件存储卷,并在CCE界面完成部署操作。 父主题: SFS Turbo迁移类问题
面向AI场景使用OBS+SFS Turbo的存储加速实践 面向AI场景使用OBS+SFS Turbo的存储加速方案概述 资源和成本规划 操作流程 实施步骤 常见问题
--transfers:传输文件的并发数目。 --checkers:扫描本地文件的并发数目。 -P:数据拷贝进度。 --links:复制源端的软链接,目的端保持为软链接的形式。 --copy-links:复制源端软链接指向的文件内容,目的端变成文件的形式,不再是软链接。 --c
例行维护 SFS Turbo容量监控及告警 如果SFS Turbo HPC型文件系统存储空间被写满,会影响业务运行,您可以在CES云监控服务上监控SFS Turbo文件系统的容量使用情况,并创建告警规则,当容量使用率超过一定阈值,可以发送邮件、短信等告警到运维人员。当收到容量监控告警时,您需要及时清理SFS
由于20049已被占用,所以需要在20050到21049之间选择一个未被占用的端口作为本地监听端口。 配置stunnel配置文件。 在/etc/stunnel路径下新建stunnel_[本地监听端口].conf文件,在此文件中写入: client = yes sslVersion = TLSv1.2 [nfs] ciphers
维度 说明 资源规划 OBS:存放训练数据集、预训练模型等数据资源的桶,桶存储类别为“标准存储”,桶策略为“私有”。 SFS Turbo:文件系统类型为“HPC型”,存储类型请根据存储容量和性能需求选择,AI场景建议选择250MB/s/TiB及以上的存储类型。 ModelArts
实施步骤 创建资源 基本配置 训练 例行维护 父主题: 面向AI场景使用OBS+SFS Turbo的存储加速实践
NAS和SFS Turbo文件系统需要配置在同一个VPC下。 约束与限制 支持拷贝特殊文件,如连接文件、设备等。 支持单文件断点续传。 支持保持原文件或目录的权限、时间、软硬链接、属主、组等所有属性。 支持使用rcp、rsh、ssh等方式来配合传输文件。 支持实现增量迁移,即只迁移发生变化的数据。
基本配置 配置ModelArts和SFS Turbo间网络直通 配置SFS Turbo和OBS联动 配置SFS Turbo数据自动导出到OBS桶 配置SFS Turbo数据淘汰策略 父主题: 实施步骤
训练 上传数据至OBS并预热到SFS Turbo中 创建训练任务 父主题: 实施步骤
Turbo HPC型文件系统绑定OBS后端之后,建议配置缓存数据淘汰功能。SFS Turbo会自动释放设定时间内没有访问过的文件数据内容,仅保留文件元数据,数据内容释放后不占用SFS Turbo文件系统上的存储空间,再次访问该文件时,将重新从OBS中加载文件数据内容。 登录SFS管理控制台。
创建训练任务 基于SFS Turbo共享文件存储创建ModelArts训练任务。 登录ModelArts管理控制台。 在左侧导航栏中选择“训练管理 > 训练作业”,进入“训练作业”列表。 单击右上角的“创建训练作业”,进入“创建训练作业”页面,在该页面填写训练作业相关参数信息。