检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
配置ModelArts网络关联SFS Turbo ModelArts网络关联SFS Turbo后,可直接在ModelArts的Notebook开发及训练环境中挂载SFS Turbo共享文件系统,并访问其中的数据。 登录ModelArts管理控制台,创建网络并打通创建资源中创建的创建虚拟私有
可以只使用SFS Turbo HPC型文件系统支撑AI训练吗? 当数据规模较小,不存在冷热数据分级降本诉求,又希望能方便快捷的构建AI训练系统时,可以选择只使用SFS Turbo高性能文件存储支撑AI训练。 可以基于OBS对象存储支撑AI自动驾驶、大模型训练吗? OBS为容量型存储,在时延、带宽
header头域携带签名信息,消息头域的格式为: Authorization: OBS AccessKeyID:signature 签名的计算过程如下: 1、构造请求字符串(StringToSign)。 2、对第一步的结果进行UTF-8编码。 3、使用SK对第二步的结果进行HMAC-SHA1签名计算。
资源和成本规划 本节介绍最佳实践中资源规划情况,包含以下内容: 表1 资源和成本规划内容说明 维度 说明 资源规划 OBS:存放训练数据集、预训练模型等数据资源的桶,桶存储类别为“标准存储”,桶策略为“私有”。 SFS Turbo:文件系统类型为“HPC型”,存储类型请根据存储容
Turbo数据自动导出到OBS桶。 配置SFS Turbo数据淘汰策略。 4 训练 上传数据至OBS并预热到SFS Turbo中。 创建训练任务。 5 例行运维 使用OBS+SFS Turbo的存储加速方案的过程中,您可以进行采取以下运维措施,保证系统正常高效运行: SFS Turbo容量监控及告警。
Turbo高性能,加速训练过程 训练数据集高速读取,避免GPU/NPU因存储I/O等待产生空闲,提升GPU/NPU利用率。 大模型TB级Checkpoint文件秒级保存和加载,减少训练任务中断时间。 3 数据导入导出异步化,不占用训练任务时长,无需部署外部迁移工具 训练任务开始前将数据从OBS导入到SFS
配置SFS Turbo数据自动导出到OBS桶 配置自动导出后,训练过程中周期性写入SFS Turbo文件系统的Checkpoint模型文件会自动以异步方式导出到关联的OBS桶中进行长期保存,无需手工导出,异步导出方式不会占用上层训练任务时间。 SFS Turbo的自动导出功能当前处于受限
本节介绍REST API请求的组成,并以调用IAM服务的获取用户Token来说明如何调用API,该API获取用户的Token,Token可以用于调用其他API时鉴权。 您还可以通过这个视频教程了解如何构造请求调用API:https://bbs.huaweicloud.com/videos/102987。
oint 背景 当前,大模型训练往往使用成百上千加速卡训练几周到几个月不等。在训练过程中,故障导致训练中断经常发生。训练程序一般采用周期checkpoint方案来将训练状态持久化到存储,当发生故障时,训练程序能恢复到故障之前的模型和优化器的状态继续训练。原生Pytorch系框架在
成本管理 随着上云企业越来越多,企业对用云成本问题也越发重视。使用弹性文件服务SFS时,如何进行成本管理,减轻业务负担呢?本文将从成本构成、成本分配、成本分析和成本优化四个维度介绍成本管理,帮助您通过成本管理节约成本,在保障业务快速发展的同时获得最大成本收益。 成本构成 使用弹性
件系统的情况下直接删除pvc/pv,请到通用文件系统侧查看文件系统是否已删除。 使用通用文件系统作为后端存储时,删除pvc/pv过程存在时延,删除过程会进行计费,请以通用文件系统侧删除时间为准。 生命周期管理策略限制 单个文件系统下最多可配置20条生命周期管理规则。 文件语义锁Flock
管理SFS Turbo文件系统与OBS桶的存储联动 概述 AI训练和推理、高性能数据预处理、EDA、渲染、仿真等场景下,您可以通过SFS Turbo文件系统来加速OBS对象存储中的数据访问。SFS Turbo文件系统支持无缝访问存储在OBS对象存储桶中的对象。您可以指定SFS T
”页签,具体操作请参见如何恢复为手动续费。 手动续费资源。 单个续费:在资源页面找到需要续费的资源,单击操作列的“续费”。 图3 单个续费 批量续费:在资源页面勾选需要续费的资源,单击列表左上角的“批量续费”。 图4 批量续费 选择文件系统的续费时长,判断是否勾选“统一到期日”,
Turbo性能型-增强版:图片渲染、AI训练、企业办公OA 125MB/s/TiB:高性能计算、AI训练、EDA仿真、自动驾驶、渲染 250MB/s/TiB:高性能计算、AI训练、EDA仿真、自动驾驶、渲染 HPC缓存型:影视渲染、AI训练、自动驾驶 支持区域: 全部 文件系统类型
C下才能文件共享。 VPC可以通过网络ACL进行访问控制。网络ACL是对一个或多个子网的访问控制策略系统,根据与子网关联的入站/出站规则,判断数据包是否被允许流入/流出关联子网。在文件系统的VPC列表中每添加一个授权地址并设置相应权限即创建了一个网络ACL。 更多关于VPC的信息请参见虚拟私有云
在云备份控制台创建备份操作步骤 请确认目标文件系统为“可用”状态,否则无法启动备份任务。此步骤介绍如何手动创建文件系统备份。 备份SFS Turbo上一代文件系统(标准型、标准型-增强版、性能型、性能型-增强版)过程中,挂载文件系统可能会失败,正在挂载使用的连接会感知30秒左右的IO延迟,建议在业务低峰期备份。