检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
障之前的模型和优化器的状态继续训练。原生Pytorch系框架在保存checkpoint时均直接持久化到存储系统,耗时与模型大小、存储的IO性能等密切相关,往往需要几分钟到几十分钟不等,为了保证训练状态的一致性,保存checkpoint时训练必须暂停,保存时间影响了训练过程的整体效
参数类型 描述 limit 否 Integer 返回的标签个数 offset 否 Integer 标签查询个数的偏移量 请求参数 表3 请求Header参数 参数 是否必选 参数类型 描述 X-Auth-Token 是 String 账号的token Content-Type 是 String
并使用SFS资源。 根据企业用户的职能,设置不同的访问权限,以达到用户之间的权限隔离。 如果华为账号已经能满足您的要求,不需要创建独立的IAM用户,您可以跳过本章节,不影响您使用SFS服务的其它功能。 本章节为您介绍对用户授权的方法,操作流程如图1所示。 前提条件 给用户组授权
描述 tags Array of tags tag标签的列表。 tag字段说明: 参数 参数类型 描述 key String 标签的键。 values Array of strings 标签的值列表。租户所有共享标签值的列表,重复的标签值只显示一次。 响应样例 { "tags" :
错误响应消息体XML中具体错误更全面、详细的英文解释,具体的错误消息请参见表2。 RequestId 本次错误请求的请求ID,用于错误定位。 HostId 返回该消息的服务端ID。 Resource 该错误相关的文件系统或对象资源。 许多错误响应包含其他的更丰富的错误信息, 建议将所有错误信息
面向AI场景使用OBS+SFS Turbo的存储加速实践 方案概述 资源和成本规划 操作流程 实施步骤 常见问题
文件系统中的数据是否可以跨区域迁移? 暂时不支持直接跨区域迁移文件系统数据,您需要在购买文件系统时规划好合适的区域,或者可以将数据复制至本地后再传至另一区域。 SFS Turbo文件系统可以使用云备份进行备份数据,再使用备份复制的功能,将备份副本复制至另一区域再创建一个与原区域数据一致的SFS
8端口的入规则。默认的源地址为0.0.0.0/0,用户后续可根据自己的实际情况,修改该地址。 如果创建加密的SFS Turbo文件系统,将会使用用户填写的kms密钥进行加密。注意,该密钥如果删除,该文件系统的数据将无法使用。 在往文件系统的文件夹写数据的过程中会占用服务器的运行内
String 共享列表的排序方向。可用的值有:asc(升序)和desc(降序)。 is_public 否(查询参数) String 取值为true时,表示当前租户可以查询到自己的全部共享和其他租户is_public为true的共享,取值为false时,表示当前用户查询不到其他租户的共享。当前
映射到后端的一个IP,导致客户端与服务端的网络连接分布不均,从而无法充分利用服务端分布式集群能力。 当客户端数量较少时,如果希望最大限度地利用文件系统性能,一种有效的方法是为每个客户端指定一个不同的服务端IP地址进行挂载。通过这种方式,可以更均匀地分布客户端与服务端的网络连接,从
操作流程 本文档介绍面向AI场景如何使用OBS+SFS Turbo的存储加速,流程如图1所示。 图1 面向AI场景使用OBS+SFS Turbo的存储加速方案步骤 表1 面向AI场景使用OBS+SFS Turbo的存储加速流程说明 序号 步骤 说明 1 规划组网和资源 此步骤请提交工单联系技术支持人员进行支撑配置。
实施步骤 创建资源 基本配置 训练 例行维护 父主题: 面向AI场景使用OBS+SFS Turbo的存储加速实践
为文件系统创建普通用户可读写的子目录 方案概述 资源和成本规划 实施步骤
训练数据的读取要尽量读得快,减少计算对 I/O 的等待,而 Checkpoint主要要求高吞吐、减少训练中断的时间。 文件接口方式的数据共享访问:由于 AI 架构需要使用到大规模的计算集群(GPU/NPU服务器),集群中的服务器访问的数据来自一个统一的数据源,即一个共享的存储空间
FS文件系统的场景下),且您需要达到较高的带宽或IOPS时,建议开启该功能; 开启nconnect后对于单并发、小IO数据块等场景会有一定的时延增加,当您的业务为小并发的延迟敏感型时,不建议开启该功能; nconnect功能开启后,可以提升NFS客户端与服务端之间的吞吐性能,最终
在文件系统中存放的单个文件最大支持多少? SFS容量型文件系统支持存放最大为240TB的单个文件。 SFS Turbo文件系统支持存放最大为320TB的单个文件。 通用文件系统支持存放最大为240TB的单个文件。 父主题: 规格类
常见问题 可以只使用SFS Turbo HPC型文件系统支撑AI训练吗? 当数据规模较小,不存在冷热数据分级降本诉求,又希望能方便快捷的构建AI训练系统时,可以选择只使用SFS Turbo高性能文件存储支撑AI训练。 可以基于OBS对象存储支撑AI自动驾驶、大模型训练吗? OBS
训练 上传数据至OBS并预热到SFS Turbo中 创建训练任务 父主题: 实施步骤
实施步骤 创建文件系统本地目录 为每个用户创建有读写权限的子目录 父主题: 为文件系统创建普通用户可读写的子目录
修改文件系统绑定的安全组 功能介绍 修改SFS Turbo文件系统绑定的安全组。修改安全组为异步任务,可以通过“查询单个文件系统”返回的子状态字段“sub_status”来判断是否修改安全组状态,子状态为“232”即为修改安全组成功。 调试 您可以在API Explorer中调试该接口,支持自动认证鉴权。API