检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
加速原理与安装AITurbo SDK 背景 当前,大模型训练往往使用成百上千加速卡训练几周到几个月不等。在训练过程中,故障导致训练中断经常发生。训练程序一般采用周期 checkpoint方案来将训练状态持久化到存储,当发生故障时,训练程序能恢复到故障之前的模型和优化器的状态继续训
卸载文件系统 当文件系统不再使用需要删除时,建议您先卸载已挂载的文件系统后再删除。 前提条件 卸载文件系统前建议先终止进程和停止读写再卸载。 Linux系统 登录弹性云服务器。 执行以下命令。 umount 本地路径 本地路径:云服务器上用于挂载文件系统的本地路径,例如“/local_path”。
返回结果 状态码 请求发送以后,您会收到响应,其中包含状态码、响应消息头和消息体。 状态码是一组从1xx到5xx的数字代码,状态码表示了请求响应的状态,完整的状态码列表请参见状态码。 对于获取用户Token接口,如果调用后返回状态码为“201”,则表示请求成功。 响应消息头 对应
弹性文件服务支持跨区域挂载吗? SFS容量型文件系统暂时不支持跨区域挂载。文件系统只能挂载至同一区域的弹性云服务器上。 通用文件系统不支持跨区域挂载。 SFS Turbo支持同区域(region)下跨可用区(AZ)挂载。 SFS Turbo不支持跨区域(Region)挂载;但可以
为每个用户创建有读写权限的子目录 前提条件 已创建文件系统,并能通过root账号成功挂载到云服务器上。操作步骤请参考创建文件系统本地目录。 已获取到文件系统的挂载地址。 操作步骤 以root账号登录弹性云服务器。 使用以下命令在root账号下使用以下命令添加普通用户账号,下面以添加普通用户Tom为例。
创建文件系统 创建文件系统,在多个云服务器中挂载使用,实现文件系统的共享访问。可创建SFS容量型、SFS Turbo和通用文件系统三种不同类型的文件系统。 前提条件 创建SFS Turbo、SFS容量型和通用文件系统前,确认已有可用的VPC。 如果无VPC,可参考《虚拟私有云用户
支持审计的关键操作 操作场景 弹性文件服务支持通过云审计服务对资源的操作进行记录,以便用户可以查询、审计和回溯。 目前仅SFS Turbo文件系统、SFS容量型文件系统支持通过云审计服务对资源的操作进行记录,通用文件系统暂不支持。 前提条件 已开通云审计服务且追踪器状态正常。开通
构造请求 本节介绍REST API请求的组成,并以调用IAM服务的获取用户Token来说明如何调用API,该API获取用户的Token,Token可以用于调用其他API时鉴权。 您还可以通过这个视频教程了解如何构造请求调用API:https://bbs.huaweicloud.com/videos/102987。
计费说明 SFS容量型文件系统计费项 默认为按需计费模式。即创建文件系统免费,按实际使用的存储容量和时长收费,以小时为单位,按每小时整点结算,不设最低消费标准。结算时,时长不足1小时的,按1小时计费。计费模型如表1所示。 表1 计费模型 资费项 计费项 计费公式 存储空间计费 文件系统所占用的存储空间容量和使用时长
停止计费 包年/包月资源 对于包年/包月计费模式的资源,例如包年/包月的弹性文件服务、包年/包月的弹性云服务器等,用户在购买时会一次性付费,服务将在到期后自动停止使用。 如果在计费周期内不再使用包年/包月资源,您可以执行退订操作,系统将根据资源是否属于五天无理由退订、是否使用代金
数据保护技术 数据加密 弹性文件服务支持服务器端加密功能,文件存储会对存储在文件系统中的数据进行加密,访问数据时,自动将加密数据解密后返回给用户。 具体使用方法请参见文件系统加密。 数据备份 备份是SFS Turbo文件系统在某一时间点的完整备份,记录了这一时刻文件系统的所有配置
适配pytorch Megatron框架的适配需要提前安装好pytorch及其依赖。 Megatron改动示例 设置环境变量,命令如下所示: AITURBO_BACKUP_ENABLE = True 环境变量“AITURBO_BACKUP_ENABLE”用于配置是否开启内存副本,
删除共享 功能介绍 删除共享。 该接口为异步接口,返回为202只是表示接口下发接收成功,后续可以通过查询共享详细信息查询共享,判断删除共享是否完成以及是否成功。 URI DELETE /v2/{project_id}/shares/{share_id} 参数说明 参数 是否必选 参数类型
资源和成本规划 本节介绍最佳实践中资源规划情况,包含以下内容: 表1 资源和成本规划 资源 资源说明 弹性云服务器ECS 云服务器和文件系统归属于同一项目下,用于挂载共享路径实现数据共享。 虚拟私有云VPC VPC为弹性云服务器构建隔离的、用户自主配置和管理的虚拟网络环境,提升用
更新文件系统 功能介绍 更新文件系统冷数据淘汰时间 接口约束 该接口仅支持已绑定后端存储的文件系统。该接口仅适用于SFS Turbo 20MB/s/TiB、40MB/s/TiB、125MB/s/TiB、250MB/s/TiB、500MB/s/TiB、1000MB/s/TiB文件系统。
与其他云服务的关系 弹性文件服务与其他云服务的关系如图1所示。 图1 弹性文件服务与其他服务的关系示意图 弹性文件服务与其他服务的关系 表1 与其他云服务的关系 功能 相关服务 位置 云服务器和文件系统归属于同一项目下,用于挂载共享路径实现数据共享。 弹性云服务器(Elastic
缩容共享 功能介绍 缩容共享。 该接口为异步接口,返回为202只是表示接口下发接收成功,后续可以通过查询共享详细信息接口,判断缩容共享是否完成以及是否成功。 URI POST /v2/{project_id}/shares/{share_id}/action 参数说明 参数 是否必选
删除共享访问规则 功能介绍 共享规则删除。 该接口为异步接口,返回为202只是表示接口下发接收成功,后续可以通过查询共享访问规则接口,判断删除共享访问规则是否完成以及是否成功 URI POST /v2/{project_id}/shares/{share_id}/action 参数说明
扩容共享 功能介绍 扩容共享。 该接口为异步接口,返回为202只是表示接口下发接收成功,后续可以通过查询共享详细信息接口判断扩容共享是否完成以及是否成功 URI POST /v2/{project_id}/shares/{share_id}/action 参数说明 参数 是否必选
配额管理 功能介绍 查询配额信息。 URI GET /v2/{project_id}/os-quota-sets/{project_id} 参数说明 参数 是否必选 参数类型 描述 project_id 是 String 操作用户的项目ID,获取方法请参见获取项目ID。 project_id