检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
任务管理 查询job的状态详情 父主题: API
创建训练任务 基于SFS Turbo共享文件存储创建ModelArts训练任务。 登录ModelArts管理控制台。 在左侧导航栏中选择“训练管理 > 训练作业”,进入“训练作业”列表。 单击右上角的“创建训练作业”,进入“创建训练作业”页面,在该页面填写训练作业相关参数信息。
取消/删除文件系统异步任务 功能介绍 如果异步任务正在执行,则取消并删除任务;否则,删除任务。仅支持删除目录资源使用情况的任务,API请求路径的feature取值为dir-usage,以下简称为DU任务。 接口约束 在2023年8月1号之后创建的文件系统支持该API操作。API请求路径的feature仅支持以下取值:
创建数据导入导出任务 功能介绍 创建数据导入导出任务 接口约束 该接口仅适用于SFS Turbo 20MB/s/TiB、40MB/s/TiB、125MB/s/TiB、250MB/s/TiB、500MB/s/TiB、1000MB/s/TiB文件系统。 调试 您可以在API Expl
创建文件系统异步任务 功能介绍 创建文件系统异步任务,仅支持异步查询目录资源使用情况,API请求路径的feature取值为dir-usage,以下简称为DU任务。 接口约束 在2023年8月1号之后创建的文件系统支持该API操作。如果存在10个正在执行的任务,则不允许创建新任务。该接口并
获取文件系统异步任务详情 功能介绍 获取文件系统异步任务详情。仅支持查询目录资源使用情况的任务,API请求路径的feature取值为dir-usage,以下简称为DU任务。 接口约束 在2023年8月1号之后创建的文件系统支持该API操作。后端有5min的缓存时间,查询的数据可能
fail_reason String job执行失败时的错误原因 sub_jobs Array of GetSubJobDetail objects 子任务列表 表5 GetSubJobDetail 参数 参数类型 描述 status String 子job的状态。success:成功。run
删除数据导入导出任务 功能介绍 删除数据导入导出任务 接口约束 该接口仅适用于SFS Turbo 20MB/s/TiB、40MB/s/TiB、125MB/s/TiB、250MB/s/TiB、500MB/s/TiB、1000MB/s/TiB文件系统 调试 您可以在API Explo
参数 参数类型 描述 task_id String 任务ID type String 任务类型 status String 任务状态 src_target String 联动目录名称 src_prefix String 导入导出任务的源端路径前缀 dest_target String
OneHpcCacheTaskInfoResp objects 任务详情 count Long 任务数量 表6 OneHpcCacheTaskInfoResp 参数 参数类型 描述 task_id String 任务ID type String 任务类型 status String 任务状态 src_target String
获取文件系统异步任务列表 功能介绍 获取文件系统异步任务列表。仅支持查询目录资源使用情况的任务,API请求路径的feature取值为dir-usage,以下简称为DU任务。 接口约束 在2023年8月1号之后创建的文件系统支持该API操作。后端有5min的缓存时间,查询的数据可能
务器的资源。 不支持 不支持 缓存加速 不支持 支持(仅保证最终一致性,如需关闭,请提交工单反馈) 说明: 最终一致性意味着当通过多客户端访问共享文件系统时,因为一个客户端的访问请求可能路由到不同的分布式后端,当命中到分布式后端的本地cache时,可能无法实时获取到其他客户端的更
大模型TB级Checkpoint文件秒级保存和加载,减少训练任务中断时间。 3 数据导入导出异步化,不占用训练任务时长,无需部署外部迁移工具 训练任务开始前将数据从OBS导入到SFS Turbo,训练过程中写入到SFS Turbo的Checkpoint数据异步导出到OBS,均不占用训练任务时长。 SFS Turbo
务端节点建立网络连接。在使用域名挂载时,域名会随机映射到后端的一个IP,可能导致客户端与服务端的网络连接分布不均,从而无法充分利用服务端分布式集群能力。 当客户端数量较少时,如果希望最大限度地利用文件系统性能,一种有效的方法是为每个客户端指定一个不同的服务端IP地址进行挂载。通过
Turbo存储空间进行扩容。 任务状态 当您执行导出数据时,会在任务状态生成一条任务记录,方便您查看任务进度和状态。 系统只会保留最近创建的1000条任务记录,之前的任务记录系统将会自动删除。 在绑定后端存储列表页,单击界面左上角的“任务状态”。 执行导出数据操作,可查看对应操作的任务记录。单击状态右边的可查看成功或失败的次数。
日志打印 场景介绍 提供多个业务节点提供共享的日志输出目录,方便分布式应用的日志收集和管理。业务特点: 多个业务主机挂载同一个共享文件系统,并发打印日志。 大文件小I/O:单个日志文件比较大,但是每次日志的写入I/O比较小。 写I/O密集型:业务以小块的写I/O为主。 配置流程
Turbo:文件系统类型为“HPC型”,存储类型请根据存储容量和性能需求选择,AI场景建议选择250MB/s/TiB及以上的存储类型。 ModelArts:AI开发平台,采用多机多卡分布式训练。 VPC:虚拟私有云和子网。 算法及数据:准备AI训练需要的算法及数据集,如Swin-Transformer算法,及ImageNet21K数据集。
高性能、高可靠性 性能随容量增加而提升,同时保障数据的高持久度,满足业务增长需求。 存储底层包含HDD和SSD两种存储介质;存储系统采用分布式存储架构,全模块架构冗余设计,无单一故障点。 无缝集成 高性能弹性文件服务同时支持NFS和SMB协议。通过标准协议访问数据,无缝适配主流应用程序进行数据读写。同时兼容SMB2
实现checkpoint秒级同步保存,避免训练任务长时间阻塞,异步保存阶段,主节点持久化过程中,内存中写入了相同检查点的备节点会持续监听主节点的保存结果。保存失败之后,备节点会接管主节点的持久化操作,代替主节点将检查点持久化下去,保证可靠性。 图1 保存checkpoint流程 加速加载checkpoint
Turbo文件系统的Checkpoint模型文件会自动以异步方式导出到关联的OBS桶中进行长期保存,无需手工导出,异步导出方式不会占用上层训练任务时间。 SFS Turbo的自动导出功能当前处于受限使用状态,请提交工单联系技术支持人员进行配置。 文件导出速度受OBS服务的写入带宽上限