检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
通过AITurbo加速保存与加载checkpoint 背景 当前,大模型训练往往使用成百上千加速卡训练几周到几个月不等。在训练过程中,故障导致训练中断经常发生。训练程序一般采用周期checkpoint方案来将训练状态持久化到存储,当发生故障时,训练程序能恢复到故障之前的模型和优化器的状态继续训练
SFS Turbo创建失败 问题描述 创建SFS Turbo文件系统时,文件系统创建失败。 排查思路 以下排查思路根据原因的出现概率进行排序,建议您从高频率原因往低频率原因排查,从而帮助您快速找到问题的原因。 如果解决完某个可能原因仍未解决问题,请继续排查其他可能原因。 图1 排查思路
构造请求 本节介绍REST API请求的组成。 请求URI SFS根据文件系统及带的资源参数来确定具体的URI,当需要进行资源操作时,可以使用这个URI地址。 URI的一般格式为(方括号内为可选项): protocol://[filesystem.]domain[:port]/[?
配置hpc缓存型后端信息 功能介绍 配置hpc缓存型后端信息 接口约束 该接口仅适用于HPC缓存型文件系统 调试 您可以在API Explorer中调试该接口,支持自动认证鉴权。API Explorer可以自动生成SDK代码示例,并提供SDK代码示例调试功能。 URI POST /
计费样例 计费场景 某用户于2023/03/18 15:00:00购买了一个按需计费的文件系统,规格配置如下: 类型:SFS Turbo 40MB/s/TiB 容量:100 GB 用了一段时间后,用户发现当前规格无法满足业务需要。于2023/03/20 15:00:00该用户对文件系统进行扩容操作
取消/删除文件系统异步任务 功能介绍 如果异步任务正在执行,则取消并删除任务;否则,删除任务。仅支持删除目录资源使用情况的任务,API请求路径的feature取值为dir-usage,以下简称为DU任务。 接口约束 在2023年8月1号之后创建的文件系统支持该API操作。API请求路径的
SFS容量型快速入门 操作场景 弹性文件服务提供按需扩展的高性能文件存储(NAS),可为云上多个弹性云服务器和裸金属服务器等提供共享访问。如果用户需要使用完全托管的共享文件存储,希望可以通过多个云上服务器共享访问一个文件系统,则可以使用弹性文件服务。 下面介绍如何调用创建共享API
创建用户并授权使用SFS 如果您需要对您所拥有的SFS进行精细的权限管理,您可以使用统一身份认证服务(Identity and Access Management,简称IAM),通过IAM,您可以: 根据企业的业务组织,在您的华为账号中,给企业中不同职能部门的员工创建IAM用户,让员工拥有唯一安全凭证
SFS Turbo性能测试 fio是一个开源的I/O压力测试工具,可以使用fio工具对SFS进行吞吐量和IOPS的性能测试。 前提条件 已在云服务器上安装fio工具。fio可从官网或GitHub下载。 注意和说明 测试性能依赖client和server之间的网络带宽及文件系统的容量大小
权限及授权项说明 如果您需要对您所拥有的SFS进行精细的权限管理,您可以使用统一身份认证服务(Identity and Access Management,简称IAM),如果华为账号已经能满足您的要求,不需要创建独立的IAM用户,您可以跳过本章节,不影响您使用SFS服务的其它功能。
按需转包年/包月 如果您需要长期使用当前按需购买的文件系统,可以将该文件系统转为包年/包月计费模式,以节省开支。按需计费变更为包年/包月会生成新的订单,用户支付订单后,包年/包月资源将立即生效。 假设用户于2023/04/18 15:29:16购买了一个按需计费的文件系统,由于业务需要
获取访问密钥(AK/SK) IAM用户若希望使用AK/SK访问SFS,必须要账号为其开启“编程访问”。开启方法请参见查看或修改IAM用户信息。 在调用接口的时候,需要使用AK/SK进行签名验证。AK/SK获取步骤如下: 登录控制台。 鼠标指向界面右上角的登录用户名,在下拉列表中单击
SFS Turbo性能测试 fio是一个开源的I/O压力测试工具,可以使用fio工具对SFS进行吞吐量和IOPS的性能测试。 前提条件 已在云服务器上安装fio工具。fio可从官网或GitHub下载。 注意和说明 测试性能依赖client和server之间的网络带宽及文件系统的容量大小
计费概述 通过阅读本文,您可以快速了解弹性文件服务SFS的计费模式、计费项、续费、欠费等主要计费信息。关于弹性文件服务的计费定价请参考产品价格详情。 计费模式 弹性文件服务提供包年/包月、按需计费两种计费模式,以满足不同场景下的用户需求。包年/包月是一种预付费模式,即先付费再使用,
文件系统权限管理 概述 您可以给文件系统配置ip鉴权规则,根据不同的IP或网段授予不同的权限。 ip鉴权默认有一个(*,rw,no_root_squash)表示所有用户都有读写权限且不进行权限降级的权限,该权限可以被删除。 使用限制 一个文件系统最多可以配置64条权限规则。 权限可以增删
自动挂载文件系统 为避免已挂载文件系统的云服务器重启后,挂载信息丢失,您可以在云服务器设置重启时进行自动挂载。 限制说明 部分CentOS系统的云服务器由于管理启动项的机制(服务启动顺序)不同,可能不支持以下自动挂载方案。此时,请手动挂载。 Linux系统操作步骤 以root用户登录云服务器
创建文件系统异步任务 功能介绍 创建文件系统异步任务,仅支持异步查询目录资源使用情况,API请求路径的feature取值为dir-usage,以下简称为DU任务。 接口约束 在2023年8月1号之后创建的文件系统支持该API操作。如果存在10个正在执行的任务,则不允许创建新任务。该接口并发请求数过大可能会影响文件系统性能
欠费说明 用户在使用云服务时,账户的可用额度小于待结算的账单,即被判定为账户欠费。欠费后,可能会影响云服务资源的正常运行,请及时充值。 欠费原因 购买了按需计费弹性文件服务,并使用了一段时间后,账户的余额不足。 欠费影响 包年/包月 对于包年/包月SFS资源,用户已经预先支付了资源费用
资源和成本规划 本节介绍最佳实践中资源规划情况,包含以下内容: 表1 资源和成本规划 资源 资源说明 弹性云服务器ECS 云服务器和文件系统归属于同一项目下,用于挂载共享路径实现数据共享。 虚拟私有云VPC VPC为弹性云服务器构建隔离的、用户自主配置和管理的虚拟网络环境,提升用户云中资源的安全性
什么是弹性文件服务 弹性文件服务简介 弹性文件服务(Scalable File Service,SFS)提供按需扩展的高性能文件存储(NAS),可为云上多个弹性云服务器(Elastic Cloud Server,ECS),容器(CCE&CCI)、裸金属服务器(BMS)提供共享访问。