检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
创建VPC:创建1个虚拟私有云和子网。 创建SFS Turbo HPC型文件系统:创建1个SFS Turbo文件系统,文件系统类型选择“HPC型”,存储类型请根据存储容量和性能需求选择,AI场景建议选择250MB/s/TiB及以上的存储类型。 创建OBS桶:创建1个OBS桶,存储类别为“标准存储”,桶策略为“私有”。
实施步骤 创建资源 基本配置 训练 例行维护 父主题: 面向AI场景使用OBS+SFS Turbo的存储加速实践
训练 上传数据至OBS并预热到SFS Turbo中 创建训练任务 父主题: 实施步骤
OBS为容量型存储,在时延、带宽等存储性能上无法满足高性能AI训练,建议使用SFS Turbo HPC型高性能文件系统加速AI训练任务,训练速度加快可以节省AI算力费用。 文件系统使用空间不足,可以扩容吗? SFS Turbo文件系统支持在线扩容,扩容过程中挂载文件系统可能失败,建议业务低峰期扩容。
配置SFS Turbo数据淘汰策略 SFS Turbo HPC型文件系统绑定OBS后端之后,建议配置缓存数据淘汰功能。SFS Turbo会自动释放设定时间内没有访问过的文件数据内容,仅保留文件元数据,数据内容释放后不占用SFS Turbo文件系统上的存储空间,再次访问该文件时,将重新从OBS中加载文件数据内容。
操作指导请参考创建虚拟私有云和子网。 创建SFS Turbo HPC型文件系统 创建SFS Turbo文件系统,文件系统类型选择“HPC型”,操作指导请参考创建SFS Turbo文件系统。 创建OBS桶 创建OBS桶,存储类别为“标准存储”,桶策略为“私有”,操作指导请参考创建OBS桶。
OBS:存放训练数据集、预训练模型等数据资源的桶,桶存储类别为“标准存储”,桶策略为“私有”。 SFS Turbo:文件系统类型为“HPC型”,存储类型请根据存储容量和性能需求选择,AI场景建议选择250MB/s/TiB及以上的存储类型。 ModelArts:AI开发平台,采用多机多卡分布式训练。
基本配置 配置ModelArts和SFS Turbo间网络直通 配置SFS Turbo和OBS联动 配置SFS Turbo数据自动导出到OBS桶 配置SFS Turbo数据淘汰策略 父主题: 实施步骤
“√”表示支持,“x”表示暂不支持。 高性能弹性文件服务支持的自定义策略授权项如下所示: 【示例】文件系统,包含SFS Turbo所有文件系统接口对应的授权项,如创建文件系统、查询文件系统列表、查询单个文件系统详情、修改文件系统、删除文件系统等接口。 【示例】扩容文件系统,包括SFS Turbo文件系统扩容缩容
警时,您需要及时清理SFS Turbo存储空间、或缩短冷数据淘汰时间加速冷数据淘汰、或对SFS Turbo进行空间扩容。详情可参见SFS Turbo监控指标说明和创建告警规则。 SFS Turbo性能监控 您可以在CES云监控服务上监控和SFS Turbo文件系统的性能使用情况。
多”,选择“关联sfsturbo”。 在“关联sfsturbo”弹窗中,选择创建资源中创建的SFS Turbo HPC型文件系统。 选择完成后,单击“确定”创建关联。 使用过程中请不要解除关联,解除关联会导致ModelArts资源池无法访问SFS Turbo文件系统中的数据。 一个SFS
将数据从OBS预热到SFS Turbo中 SFS Turbo HPC型文件系统绑定OBS桶后,可以使用数据预热功能,以减少后续训练首次访问数据耗时。 训练任务开始前可通过数据预热功能将文件元数据和数据内容全部从OBS导入到SFS Turbo高性能文件存储中,数据预热功能的具体操作请参考创建SFS
配置SFS Turbo数据自动导出到OBS桶 配置自动导出后,训练过程中周期性写入SFS Turbo文件系统的Checkpoint模型文件会自动以异步方式导出到关联的OBS桶中进行长期保存,无需手工导出,异步导出方式不会占用上层训练任务时间。 SFS Turbo的自动导出功能当前
PU卡同时从存储中加载checkpoint致使存储带宽成为拥塞瓶颈,在具有相同checkpoint的冗余组内,采用部分代表节点先从远端存储加载checkpoint并将checkpoint广播到剩余其他节点的恢复机制,这种策略显著降低大规模训练集群故障恢复过程对远端存储带宽的需求,
云审计服务(Cloud Trace Service,CTS),是华为云安全解决方案中专业的日志审计服务,提供对各种云资源操作记录的收集、存储和查询功能,可用于支撑安全分析、合规审计、资源跟踪和问题定位等常见应用场景。 用户开通云审计服务并创建和配置追踪器后,CTS可记录SFS Turbo的管理事件和数据事件用于审计。
创建训练任务 基于SFS Turbo共享文件存储创建ModelArts训练任务。 登录ModelArts管理控制台。 在左侧导航栏中选择“训练管理 > 训练作业”,进入“训练作业”列表。 单击右上角的“创建训练作业”,进入“创建训练作业”页面,在该页面填写训练作业相关参数信息。
带宽=min{2GB/s,DSS存储池可用带宽} IOPS=min{20k,DSS存储池可用IOPS} 存储池可用带宽和IOPS,与存储容量成正比例关系。在购买专属弹性文件服务,规划DSS专属存储资源时,需要为专属弹性文件服务预留对应的容量和性能,避免出现容量或性能不足,影响专属文件存储服务。 在“
权限,取值范围是0到7。文件所有者由uid指定,文件所属用户组由gid指定,不是文件所有者且不在文件所属用户组的用户为其他用户。 数字4、2、1分别表示读、写、执行权限,这些数字相加,即可得到所需的权限组合。例如:750中第一位7代表该文件所有者对该文件具有读、写、执行权限;第二
删除数据导入导出任务 功能介绍 删除数据导入导出任务 接口约束 该接口仅适用于SFS Turbo 20MB/s/TiB、40MB/s/TiB、125MB/s/TiB、250MB/s/TiB、500MB/s/TiB、1000MB/s/TiB文件系统 调试 您可以在API Explorer中调试该接口,支持自动认证鉴权。API
功能介绍 查询数据导入导出任务详情 接口约束 该接口仅适用于SFS Turbo 20MB/s/TiB、40MB/s/TiB、125MB/s/TiB、250MB/s/TiB、500MB/s/TiB、1000MB/s/TiB文件系统 调试 您可以在API Explorer中调试该接口,支持自动认证鉴权。API