检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
通过AITurbo加速保存与加载checkpoint 背景 当前,大模型训练往往使用成百上千加速卡训练几周到几个月不等。在训练过程中,故障导致训练中断经常发生。训练程序一般采用周期checkpoint方案来将训练状态持久化到存储,当发生故障时,训练程序能恢复到故障之前的模型和优化
会自动以异步方式导出到关联的OBS桶中进行长期保存,无需手工导出,异步导出方式不会占用上层训练任务时间。 SFS Turbo的自动导出功能当前处于受限使用状态,请提交工单联系技术支持人员进行配置。 文件导出速度受OBS服务的写入带宽上限影响,默认是16Gbit/s,如果大模型训练
响应参数 状态码: 200 表3 响应Body参数 参数 参数类型 描述 jobId String ldap异步任务的id。可通过查询job的状态详情接口查询job的执行状态。 状态码: 400 表4 响应Body参数 参数 参数类型 描述 errCode String 错误码 errMsg
通过关联账号维度查看成本分配。 通过企业项目进行成本分配 在进行成本分配之前,建议开通企业项目并做好企业项目的规划,可以根据企业的组织架构或者业务项目来划分。在购买云资源时选择指定企业项目,新购云资源将按此企业项目进行成本分配。详细介绍请参见通过企业项目维度查看成本分配。 图1 为文件系统选择企业项目
查询数据导入导出任务列表 功能介绍 查询数据导入导出任务列表 接口约束 该接口仅适用于SFS Turbo 20MB/s/TiB、40MB/s/TiB、125MB/s/TiB、250MB/s/TiB、500MB/s/TiB、1000MB/s/TiB文件系统 调试 您可以在API E
查询文件系统的权限规则列表 功能介绍 查询文件系统的权限规则列表 调试 您可以在API Explorer中调试该接口,支持自动认证鉴权。API Explorer可以自动生成SDK代码示例,并提供SDK代码示例调试功能。 URI GET /v1/{project_id}/sfs-t
建议选择和云服务器相同的可用区。 可单击“查看虚拟私有云”查看已有VPC的详细信息或申请新的VPC。 了解详细步骤请参考创建文件系统。 Step3 挂载文件系统 登录ECS。可以通过管理控制台或跨平台远程访问工具(例如PuTTY)登录已购买的ECS。 图3 登录ECS 查看ECS是否安装NFS客户端。执行命令:rpm
迁移说明 SFS Turbo默认只能被云上同一个VPC内的ECS/CCE访问,用户可通过云专线/VPN/对等连接等方式打通网络,实现多种访问方式。 云下或其他云访问: 云专线/VPN 云上同区域同一账号不同VPC: VPC对等连接 云上同区域跨账号访问: VPC对等连接 不同区域访问:
查询文件系统的某一个权限规则 功能介绍 查询文件系统的某一个权限规则 调试 您可以在API Explorer中调试该接口,支持自动认证鉴权。API Explorer可以自动生成SDK代码示例,并提供SDK代码示例调试功能。 URI GET /v1/{project_id}/sfs
文件系统可以跨账号挂载使用吗? 通用文件系统暂不支持跨账号挂载使用。 SFS容量型文件系统北京四已上线跨账号挂载使用功能。 SFS Turbo文件系统基于VPC的对等连接功能,实现跨账号访问。更多关于VPC对等连接功能信息和实现方法请参见VPC对等连接。 父主题: 限制类
share London" } } 客户端收到系统响应时,共享创建任务还未结束,因此,共享路径不能马上查询到,当创建任务完成后,用户可以通过共享路径信息查询接口查询出来。 状态码 正常 200 异常 状态码 说明 400 Bad Request 服务器未能处理请求。 401
付费模式,即先使用再付费,按照弹性文件服务实际使用时长计费。关于两种计费模式的详细介绍请参见计费模式概述。 在购买弹性文件服务后,如果发现当前计费模式无法满足业务需求,您还可以变更计费模式。详细介绍请参见变更计费模式概述。 计费项 弹性文件服务不同类型的文件系统,如SFS容量型文件系统、通用文件系统、SFS
原因2:云服务器在强制umount之后,无法挂载。 定位思路 根据可能原因进行故障排查。 解决方法 原因1:文件系统状态异常。 登录管理控制台,进入“弹性文件服务”页面,查看该文件系统状态,如果为“可用”状态,说明文件系统可正常访问。 是 => 原因2。 否 => 请参考文件系统出现异常状态,使文件系统状态恢复“可用”后,重新访问文件系统。
通用文件系统的使用和数据安全。您只要保证云服务账号上有足够的余额,系统会自动以按需计费的模式进行结算。 查看资源包详情 在SFS管理控制台左侧导航栏选择“资源包管理”。 查看资源包的详细信息。包括资源包规格、状态、剩余容量、生效/失效时间、订单号和使用明细。 续费资源包 在SFS
响应参数 状态码: 200 表4 响应Body参数 参数 参数类型 描述 jobId String ldap异步任务的id。可通过查询job的状态详情接口查询job的执行状态。 状态码: 400 表5 响应Body参数 参数 参数类型 描述 errCode String 错误码 errMsg
响应参数 状态码: 200 表4 响应Body参数 参数 参数类型 描述 jobId String ldap异步任务的id。可通过查询job的状态详情接口查询job的执行状态。 状态码: 400 表5 响应Body参数 参数 参数类型 描述 errCode String 错误码 errMsg
配置多账号访问 操作场景 SFS Turbo文件系统基于VPC的对等连接功能,实现跨账号访问。更多关于VPC对等连接功能信息和实现方法请参见VPC对等连接。 使用限制 一个文件系统最多可以添加20个可用的VPC,对于添加的VPC所创建的ACL规则总和不能超过400个。 如果已经在
才进行扣费。在“费用中心 > 账单管理 > 流水和明细账单 > 流水账单”中,“消费时间”即按需产品的实际使用时间。 查看指定资源的账单 使用SFS资源ID查询账单 登录管理控制台,选择“存储 > 弹性文件服务 SFS”。 进入文件系统列表页面。 单击文件系统名称,进入文件系统详
String 共享网络的ID,当前不支持共享网络管理,该字段无意义。 snapshot_id String 创建共享的源快照的ID,当前不支持快照,该字段当前无意义。 snapshot_support Boolean 是否支持快照,当前不支持快照,该字段当前无意义 id String
仅挂载至一种服务器系统的文件系统出现写入数据失败的情况。 可能原因 服务器的安全组配置不正确,需要与文件系统通信的端口未开放。 定位思路 前往安全组控制台查看目标服务器的端口开放情况,并正确配置。 解决方法 登录弹性云服务器控制台。 登录管理控制台。 单击管理控制台左上角的,选择区域和项目。 选择“计算