检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
训练 上传数据至OBS并预热到SFS Turbo中 创建训练任务 父主题: 实施步骤
序号 功能名称 功能描述 阶段 相关文档 1 SFS Turbo数据备份和恢复 为SFS Turbo文件系统提供简单易用的备份服务,针对病毒入侵、人为误删除、软硬件故障等场景,可将数据恢复到任意备份点。 公测 备份 2018年11月 序号 功能名称 功能描述 阶段 相关文档 1 SFS
Turbo:文件系统类型为“HPC型”,存储类型请根据存储容量和性能需求选择,AI场景建议选择250MB/s/TiB及以上的存储类型。 ModelArts:AI开发平台,采用多机多卡分布式训练。 VPC:虚拟私有云和子网。 算法及数据:准备AI训练需要的算法及数据集,如Swin-Transformer算法,及ImageNet21K数据集。
基本配置 配置ModelArts和SFS Turbo间网络直通 配置SFS Turbo和OBS联动 配置SFS Turbo数据自动导出到OBS桶 配置SFS Turbo数据淘汰策略 父主题: 实施步骤
创建资源 本最佳实践方案需要使用到VPC、SFS Turbo HPC型文件系统、OBS桶、ModelArts资源池资源。 为了提供最佳加速性能,建议SFS Turbo HPC文件系统和ModelArts资源池就近选择在同一个Region的同一个可用区(AZ)。 创建VPC 虚拟私
您可以在CES云监控服务上监控和SFS Turbo文件系统的性能使用情况。当AI算力集群规模变大,大模型参数量变大,导致Checkpoint读加载时间变长时,或训练数据集加载由于存储读写带宽不足导致拖慢AI训练时,您可以对SFS Turbo进行性能扩容,以缩短数据加载时长。详情可参见SFS
创建训练任务 基于SFS Turbo共享文件存储创建ModelArts训练任务。 登录ModelArts管理控制台。 在左侧导航栏中选择“训练管理 > 训练作业”,进入“训练作业”列表。 单击右上角的“创建训练作业”,进入“创建训练作业”页面,在该页面填写训练作业相关参数信息。
Turbo权限,用来控制文件系统的读写权限。 全部 备份SFS Turbo文件系统 备份是文件系统在某一时间点的完整备份,记录了这一时刻文件系统的所有配置数据和业务数据。当您的文件系统出现故障或文件系统中的数据发生逻辑错误等时,可快速使用备份恢复数据。 全部 加密SFS Turbo文件系统
Turbo文件系统 文件系统删除后,文件系统中存放的数据将无法恢复。为避免数据丢失,执行删除操作前,请确认存放在该文件系统中的文件都已经在本地备份。 前提条件 删除文件系统之前,建议先卸载已挂载的文件系统。卸载操作请参见卸载SFS Turbo文件系统。 操作步骤 登录高性能弹性文件服务管理控制台。
将云上NAS存储数据迁移至SFS Turbo文件系统中也可以参考本方案,云上NAS和SFS Turbo文件系统需要配置在同一个VPC下。 约束与限制 支持拷贝特殊文件,如连接文件、设备等。 支持单文件断点续传。 支持保持原文件或目录的权限、时间、软硬链接、属主、组等所有属性。 支持使用rcp、rsh、ssh等方式来配合传输文件。
数据加密:存储池支持数据加密,保护数据安全。 VPC隔离:安全可靠,租户间100%隔离。 物理独享:存储池物理隔离,资源独享。 备份恢复 专属文件存储服务支持CBR备份,基于备份可以恢复文件存储系统。 监控文件系统 对接云监控,支持带宽、IOPS、容量等多种监控指标。 审计文件系统 支持通过云
选择“流水和明细账单 > 明细账单”,在如下图所示位置单击鼠标左键,复制资源ID。 图1 复制资源ID 登录管理控制台,选择“存储 > 弹性文件服务”。 进入文件系统列表页面。 选择资源所在的区域,在筛选条件中选择“ID”,并输入步骤2中复制的资源ID,单击图标即可查找到该资源。 图2 查找资源
配置SFS Turbo数据淘汰策略 SFS Turbo HPC型文件系统绑定OBS后端之后,建议配置缓存数据淘汰功能。SFS Turbo会自动释放设定时间内没有访问过的文件数据内容,仅保留文件元数据,数据内容释放后不占用SFS Turbo文件系统上的存储空间,再次访问该文件时,将重新从OBS中加载文件数据内容。
配置SFS Turbo和OBS联动 SFS Turbo HPC型文件系统支持无缝访问存储在对象存储OBS存储桶中的对象,您可以指定SFS Turbo内的文件目录与OBS对象存储桶进行关联。 登录SFS管理控制台,在左侧导航窗格中选择“SFS Turbo”。 在文件系统列表中,单击
字段;否则不返回。 version String SFS Turbo文件系统的版本号。 avail_capacity String SFS Turbo文件系统剩余容量,单位GB。 availability_zone String SFS Turbo文件系统所在可用区编码。 az_name
SFS Turbo删除类问题 如何删除.nfs类型的文件? 如何提高SFS Turbo文件系统复制和删除操作的效率?
配置解析域名的DNS服务器 操作场景 DNS服务器用于解析高性能弹性文件服务中文件系统的域名。DNS服务器东北区IP地址为100.125.6.250,其它区域详情请参见华为云内网DNS地址。 默认情况下,用于解析文件系统域名的DNS服务器的IP地址会在创建ECS时自动配置到ECS
配置ModelArts和SFS Turbo间网络直通 创建委托授权ModelArts云服务使用SFS Turbo 使用IAM管理员账号登录IAM控制台。 在IAM控制台的左侧导航窗格中选择“权限管理 > 权限”。 配置调用SFS Turbo接口的自定义策略: 单击右上角的“创建自定义策略”,进入自定义策略配置页面。
Turbo文件系统详情页。在如下图所示位置单击鼠标左键,复制资源ID。 图1 获取资源ID 在控制台顶部菜单栏中选择“费用 > 费用账单”。 进入费用账单页面。 选择“流水和明细账单 > 明细账单”,在筛选条件中选择“资源ID”,并输入步骤2复制的资源ID,单击图标即可搜索该资源的账单。 图2
配置SFS Turbo数据自动导出到OBS桶 配置自动导出后,训练过程中周期性写入SFS Turbo文件系统的Checkpoint模型文件会自动以异步方式导出到关联的OBS桶中进行长期保存,无需手工导出,异步导出方式不会占用上层训练任务时间。 SFS Turbo的自动导出功能当前