检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
d}/hpc-cache/tasks 表1 路径参数 参数 是否必选 参数类型 描述 project_id 是 String 项目ID share_id 是 String 文件系统ID 表2 Query参数 参数 是否必选 参数类型 描述 type 否 String 任务类型 status
文件接口方式的数据共享访问:由于 AI 架构需要使用到大规模的计算集群(GPU/NPU服务器),集群中的服务器访问的数据来自一个统一的数据源,即一个共享的存储空间。这种共享访问的数据有诸多好处,它可以保证不同服务器上访问数据的一致性,减少不同服务器上分别保留数据带来的数据冗余等。另外以
}/fs/dir-quota 表1 路径参数 参数 是否必选 参数类型 描述 project_id 是 String 项目id share_id 是 String 文件系统id 请求参数 表2 请求Header参数 参数 是否必选 参数类型 描述 X-Auth-Token 是 String
no_root_squash:客户端使用的是root用户时,映射到NFS服务器的用户依然为root用户。 root_squash:客户端使用的是root用户时,映射到NFS服务器的用户为NFS的匿名用户(nfsnobody)。 all_squash:默认选项。所有访问NFS服务器的客户端的用户都映射为匿名用户。' 状态码:
are_id}/action 表1 路径参数 参数 是否必选 参数类型 描述 project_id 是 String 项目ID share_id 是 String 文件系统ID 请求参数 表2 请求Header参数 参数 是否必选 参数类型 描述 X-Auth-Token 是 String
创建的SFS Turbo HPC型文件系统。 单击“提交”,完成训练作业的创建。 训练作业创建完成后,后台将自动完成容器镜像下载、代码目录下载、执行启动命令等动作。训练作业一般需要运行一段时间,根据您的训练业务逻辑和选择的资源不同,训练时长将持续几十分钟到几小时不等。要查看训练作
id} 表1 路径参数 参数 是否必选 参数类型 描述 project_id 是 String 项目ID share_id 是 String 文件系统ID task_id 是 String 任务ID 请求参数 表2 请求Header参数 参数 是否必选 参数类型 描述 X-Auth-Token
/v1/{project_id}/sfs-turbo/shares/{share_id}/fs/{feature}/tasks/{task_id} 表1 路径参数 参数 是否必选 参数类型 描述 project_id 是 String 项目id share_id 是 String 文件系统id feature 是
id} 表1 路径参数 参数 是否必选 参数类型 描述 project_id 是 String 项目ID share_id 是 String 文件系统ID task_id 是 String 任务ID 请求参数 表2 请求Header参数 参数 是否必选 参数类型 描述 X-Auth-Token
/v1/{project_id}/sfs-turbo/shares/{share_id}/fs/{feature}/tasks/{task_id} 表1 路径参数 参数 是否必选 参数类型 描述 project_id 是 String 项目id share_id 是 String 文件系统id feature 是
路径参数 参数 是否必选 参数类型 描述 project_id 是 String 项目id share_id 是 String 文件系统id feature 是 String 任务类型。当前仅支持取值"dir-usage"。 请求参数 表2 请求Header参数 参数 是否必选 参数类型
表1 路径参数 参数 是否必选 参数类型 描述 project_id 是 String 项目id share_id 是 String 文件系统id feature 是 String 任务类型。例,DU任务取值为dir-usage 表2 Query参数 参数 是否必选 参数类型 描述
创建资源 本最佳实践方案需要使用到VPC、SFS Turbo HPC型文件系统、OBS桶、ModelArts资源池资源。 为了提供最佳加速性能,建议SFS Turbo HPC文件系统和ModelArts资源池就近选择在同一个Region的同一个可用区(AZ)。 创建VPC 虚拟私
TiB及以上的存储类型。 ModelArts:AI开发平台,采用多机多卡分布式训练。 VPC:虚拟私有云和子网。 算法及数据:准备AI训练需要的算法及数据集,如Swin-Transformer算法,及ImageNet21K数据集。 说明: 为了提供最佳加速性能,建议SFS Turbo
在创建委托页面,设置“委托名称”,例如设置为“modelarts_agency”。 “委托类型”选择“云服务”,在“云服务”中选择“ModelArts”,持续时间根据用户需要选取,单击“下一步”,进入给委托授权页面。 勾选步骤1到4创建的自定义策略,给委托授权,单击“下一步”。 选择授权范围方案,选择“所有资源”。
时与模型大小、存储的IO性能等密切相关,往往需要几分钟到几十分钟不等,为了保证训练状态的一致性,保存checkpoint时训练必须暂停,保存时间影响了训练过程的整体效率。当发生故障,训练程序从已有checkpoint恢复时,每张卡都需要从持久化存储中加载,在训练集群规模较大,存储