检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
AITurbo AI场景加速 加速保存与加载checkpoint 父主题: SFS Turbo文件系统
如何确认Linux云服务器上的文件系统处于可用状态? SFS容量型文件系统:以root用户登录云服务器,执行“showmount -e 文件系统域名或IP”命令,将会回显指定域名或IP下所有可用的SFS容量型文件系统。 通用文件系统:当前不支持使用。 SFS Turbo文件系统:以root用户登录云服务器,执行“showmount
为文件系统创建普通用户可读写的子目录 方案概述 资源和成本规划 实施步骤
表示HTTP请求所指定的SFS资源,构造方式如下: <文件系统名+对象名>+[子资源1] + [子资源2] + ... 文件系统名和对象名,例如:/filesystem/object。如果没有对象名,如列举文件系统,则为"/filesystem/"。如果文件系统名也没有,则为“/”。 如果有子资源,则将子资源添加进来,例如
配置hpc缓存型后端信息 功能介绍 配置hpc缓存型后端信息 接口约束 该接口仅适用于HPC缓存型文件系统 调试 您可以在API Explorer中调试该接口,支持自动认证鉴权。API Explorer可以自动生成SDK代码示例,并提供SDK代码示例调试功能。 URI POST
方案概述 应用场景 文件系统创建成功后,文件系统默认情况下只有root用户具有读写权限。 root用户可以根据需要,可以授权多个普通用户访问权限,并在文件主目录下为每个普通用户创建多个子目录并挂载至主目录上,同时使普通用户拥有读写权限。 操作流程 为文件系统创建普通用户可读写的子目录的流程如图1所示。
实施步骤 创建文件系统本地目录 为每个用户创建有读写权限的子目录 父主题: 为文件系统创建普通用户可读写的子目录
用户签名验证 SFS通过AK/SK对请求进行签名,在向SFS发送请求时,客户端发送的每个消息头需要包含由SK、请求时间、请求类型等信息生成的签名信息。 AK(Access Key ID):访问密钥ID。与私有访问密钥关联的唯一标识符;访问密钥ID和私有访问密钥一起使用,对请求进行
Administrator 创建文件系统 √ x √ 查询文件系统 √ √ √ 修改文件系统 √ x √ 删除文件系统 √ x √ 添加文件系统的访问规则 (为文件系统添加VPC或添加授权地址) √ x √ 修改文件系统的访问规则(修改文件系统的VPC或授权地址) √ x √ 删除文件系统的访问规则(删除文件系统的VPC或授权地址)
归属于同一VPC下。 文件系统 文件系统通过标准的NFS协议和CIFS协议为客户提供文件存储服务,用于网络文件远程访问,用户通过管理控制台创建挂载地址后,即可在多个云服务器上进行挂载,并通过标准的POSIX接口对文件系统进行访问。 父主题: 为文件系统创建普通用户可读写的子目录
一个文件系统最多支持同时挂载到多少台云服务器上? 一个SFS容量型文件系统最多支持同时挂载到10000台云服务器上。 一个SFS Turbo文件系统最多支持同时挂载到3000台云服务器上。 一个通用文件系统最多支持同时挂载到10000台云服务器上。 父主题: 规格类
FullAccess中定义的删除文件系统权限,您可以创建一条拒绝删除文件系统的自定义策略,然后同时将SFS FullAccess和拒绝策略授予用户,根据Deny优先原则,则用户可以对SFS执行除了删除文件系统外的所有操作。拒绝策略示例如下: { "Version": "1.1"
加速保存与加载checkpoint 加速原理与安装AITurbo SDK 适配pytorch 父主题: AITurbo AI场景加速
适配pytorch Megatron框架的适配需要提前安装好pytorch及其依赖。 Megatron改动示例 设置环境变量,命令如下所示: AITURBO_BACKUP_ENABLE = True 环境变量“AITURBO_BACKUP_ENABLE”用于配置是否开启内存副本,
存,也不信任标记为negative的缓存,达到禁用缓存的效果。 解决方法 如果已挂载文件系统,请先参考卸载文件系统完成卸载操作。 参考挂载NFS文件系统到云服务器完成挂载前准备。 挂载文件系统时,使用如下命令进行挂载。 mount -t nfs -o vers=3,timeo=600
为每个用户创建有读写权限的子目录 前提条件 已创建文件系统,并能通过root账号成功挂载到云服务器上。操作步骤请参考创建文件系统本地目录。 已获取到文件系统的挂载地址。 操作步骤 以root账号登录弹性云服务器。 使用以下命令在root账号下使用以下命令添加普通用户账号,下面以添加普通用户Tom为例。
相关服务 位置 云服务器和文件系统归属于同一项目下,用于挂载共享路径实现数据共享。 弹性云服务器(Elastic Cloud Server,ECS) 挂载NFS文件系统到云服务器(Linux) 挂载NFS文件系统到云服务器(Windows) 挂载CIFS文件系统到云服务器(Windows)
当发生故障时,训练程序能恢复到故障之前的模型和优化器的状态继续训练。原生Pytorch系框架在保存checkpoint时均直接持久化到存储系统,耗时与模型大小、存储的IO性能等密切相关,往往需要几分钟到几十分钟不等,为了保证训练状态的一致性,保存checkpoint时训练必须暂停
计费项 弹性文件服务不同类型的文件系统,如SFS容量型文件系统、通用文件系统、SFS Turbo文件系统都可按需计费。SFS容量型文件系统、通用文件系统、SFS Turbo文件系统计费项都是存储空间费用;其中SFS Turbo文件系统的HPC缓存型除存储空间计费外,还可以按“带宽大小”计费项来计费。
Turbo不同规格的文件系统之间暂不支持互相转换。 如果希望使用另一种规格的SFS Turbo文件系统,不再需要使用之前规格的文件系统,可以先将原文件系统删除/退订后,重新购买新规格的SFS Turbo文件系统。或者购买新规格的SFS Turbo文件系统后,完成文件系统之间的数据迁移,再将原文件系统删除/退订即可。