检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
File System),即网络文件系统。一种使用于分散式文件系统的协议,通过网络让不同的机器、不同的操作系统能够彼此分享数据。 share_type 是 String 文件系统类型,有效值为STANDARD或者PERFORMANCE。当文件系统正在创建时,该字段不返回。 SFS
足高性能AI训练,建议使用SFS Turbo HPC型高性能文件系统加速AI训练任务,训练速度加快可以节省AI算力费用。 文件系统使用空间不足,可以扩容吗? SFS Turbo文件系统支持在线扩容,扩容过程中挂载文件系统可能失败,建议业务低峰期扩容。 父主题: 面向AI场景使用OBS+SFS
您可以在创建文件系统的时候为文件系统绑定标签,标签用于标识文件系统资源,可通过标签实现对文件系统资源的分类和搜索。 标签由标签“键”和标签“值”组成。 键:如果要为文件系统添加标签,则该项为必选参数,不能为空。 标签的“键”最大长度为36个字符, 值:如果要为文件系统添加标签,则该
删除文件系统目录 功能介绍 删除文件系统目录 接口约束 在2023年6月1号之后创建的文件系统支持该API操作。 警告:该API为删除文件系统子目录数据的高危操作,删除后无法恢复,使用前请确认下发的文件系统目录是否正确。 调试 您可以在API Explorer中调试该接口,支持自动认证鉴权。API
需要修改的SFS Turbo文件系统 表4 ShareName 参数 是否必选 参数类型 描述 name 是 String 需要修改的SFS Turbo文件系统的名字 响应参数 无 请求示例 修改文件系统的名称,需要修改的SFS Turbo文件系统名称为“sfs-turbo-test1”。
原因4:访问文件系统使用的DNS错误。 原因5:挂载的目标子目录不存在。 定位思路 根据可能原因进行故障排查。 解决办法 原因1:文件系统已被删除。 登录管理控制台,查看文件系统是否已被删除。 是 => 重新创建文件系统或者选择已有文件系统进行挂载(文件系统与云服务器必须归属在同一VPC下)。
文件系统写入失败 现象描述 仅挂载至一种服务器系统的文件系统出现写入数据失败的情况。 可能原因 服务器的安全组配置不正确,需要与文件系统通信的端口未开放。 定位思路 前往安全组控制台查看目标服务器的端口开放情况,并正确配置。 解决方法 登录弹性云服务器控制台。 登录管理控制台。 单击管理控制台左上角的,选择区域。
卸载文件系统 当SFS Turbo文件系统不再使用需要删除时,建议您先卸载已挂载的SFS Turbo文件系统后再删除。 前提条件 卸载文件系统前建议先终止进程和停止读写再卸载。 Linux系统 登录弹性云服务器。 执行以下命令。 umount 本地路径 本地路径:云服务器上用于挂
文件系统挂载超时 现象描述 使用mount命令挂载文件系统到云服务器,云服务器系统提示“timed out”。 可能原因 原因1:网络状态不稳定。 原因2:网络连接异常。 定位思路 排除网络问题后,重试挂载命令。 解决方法 原因1和原因2:网络状态不稳定;网络连接异常。 修复网络,网络修复完成后重新执行挂载。
创建资源 创建VPC:创建1个虚拟私有云和子网。 创建SFS Turbo HPC型文件系统:创建1个SFS Turbo文件系统,文件系统类型选择“HPC型”,存储类型请根据存储容量和性能需求选择,AI场景建议选择250MB/s/TiB及以上的存储类型。 创建OBS桶:创建1个OBS桶
挂载文件系统 挂载NFS协议类型文件系统到云服务器(Linux) 自动挂载文件系统 父主题: 挂载访问
加速保存与加载checkpoint 加速原理与安装AITurbo SDK 适配pytorch 父主题: AITurbo AI场景加速
自动挂载文件系统 为避免已挂载SFS Turbo文件系统的云服务器重启后,挂载信息丢失,您可以在云服务器设置重启时进行自动挂载。 限制说明 部分CentOS系统的云服务器由于管理启动项的机制(服务启动顺序)不同,可能不支持以下自动挂载方案。此时,请手动挂载。 Linux系统操作步骤 以root用户登录云服务器。
Turbo文件系统的版本号。 avail_capacity String SFS Turbo文件系统剩余容量,单位GB。 availability_zone String SFS Turbo文件系统所在可用区编码。 az_name String SFS Turbo文件系统所在可用区名称。
SFS容量型文件系统迁移至SFS Turbo文件系统 方案概述 用户可以将SFS容量型文件系统中的数据迁移至SFS Turbo文件系统中。 此方案通过创建一台Linux操作系统的云服务器,来连接SFS容量型文件系统和SFS Turbo文件系统的通信。 约束与限制 仅支持使用Linux系统的云服务器进行数据迁移。
get_gpt_layer_with_transformer_engine_spec, ) #增加如下一行 from aiturbo.checkpoint.aiturbo_megatron_training_adaptor import megatron_checkpoint_adaptor stimer
获取文件系统异步任务详情 功能介绍 获取文件系统异步任务详情。仅支持查询目录资源使用情况的任务,API请求路径的feature取值为dir-usage,以下简称为DU任务。 接口约束 在2023年8月1号之后创建的文件系统支持该API操作。后端有5min的缓存时间,查询的数据可能
文件系统自动断开挂载 问题描述 文件系统与服务器的连接断开,需要重新挂载。 可能原因 没有配置自动挂载,重启服务器后会自动断开。 解决方法 参考自动挂载文件系统,在云服务器设置重启时进行自动挂载。 提交工单 如果上述方法均不能解决您的疑问,请提交工单寻求更多帮助。
如果您想通过API调用完成文件系统权限管理,请参考《高性能弹性文件服务API参考》权限管理章节。 登录高性能弹性文件服务管理控制台。 在SFS Turbo文件系统列表中,找到待添加授权地址的SFS Turbo文件系统并单击目标文件系统名称,进入文件系统详情界面。 在“权限列表”页签,单击“添加”。
可能原因 处理措施 文件系统和挂载的服务器不在同一个可用区 在与服务器相同的可用区新建一个文件系统,将另一可用区的文件系统数据迁移至新文件系统后,再将新文件系统挂载至服务器。 使用场景与文件系统类型不匹配 结合业务场景,参考文件系统类型,选择正确的文件系统类型。 并发数过高或过低