检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
排查思路 可能原因 处理措施 文件系统和挂载的服务器不在同一个可用区 在与服务器相同的可用区新建一个文件系统,将另一可用区的文件系统数据迁移至新文件系统后,再将新文件系统挂载至服务器。 使用场景与文件系统类型不匹配 结合业务场景,参考文件系统类型,选择正确的文件系统类型。 并发数过高或过低
云服务器无法访问文件系统 现象描述 云服务器无法访问文件系统,提示被拒绝,导致该云服务器的所有业务异常。 可能原因 云服务器在强制umount之后,无法挂载。 定位思路 根据可能原因进行故障排查。 解决方法 云服务器在强制umount之后,无法重新挂载访问。 此问题是云服务器的缺陷,可以通过重启云服务器来解决。
文件系统自动断开挂载 问题描述 文件系统与服务器的连接断开,需要重新挂载。 可能原因 没有配置自动挂载,重启服务器后会自动断开。 解决方法 参考自动挂载文件系统,在云服务器设置重启时进行自动挂载。 提交工单 如果上述方法均不能解决您的疑问,请提交工单寻求更多帮助。
卸载文件系统 当SFS Turbo文件系统不再使用需要删除时,建议您先卸载已挂载的SFS Turbo文件系统后再删除。 前提条件 卸载文件系统前建议先终止进程和停止读写再卸载。 Linux系统 登录弹性云服务器。 执行以下命令。 umount 本地路径 本地路径:云服务器上用于挂
文件系统出现异常状态 目前文件系统异常状态主要为扩容错误,当处于这种状态时,请参考下面处理建议。 表1 文件系统状态异常处理建议 异常状态 建议 扩容错误 当文件系统处于扩容错误状态,文件系统可自动恢复到可用状态。如果不能恢复到可用状态,请联系管理员解决。
加速原理与安装AITurbo SDK 背景 当前,大模型训练往往使用成百上千加速卡训练几周到几个月不等。在训练过程中,故障导致训练中断经常发生。训练程序一般采用周期 checkpoint方案来将训练状态持久化到存储,当发生故障时,训练程序能恢复到故障之前的模型和优化器的状态继续训练。原生Pyto
FS容量型文件系统和SFS Turbo文件系统。 输入以下挂载命令,用于访问文件系统1。文件系统1可以是SFS容量型文件系统或SFS Turbo文件系统。 mount -t nfs -o vers=3,timeo=600,noresvport,nolock,tcp 文件系统1挂载地址
删除文件系统目录 功能介绍 删除文件系统目录 接口约束 在2023年6月1号之后创建的文件系统支持该API操作。 警告:该API为删除文件系统子目录数据的高危操作,删除后无法恢复,使用前请确认下发的文件系统目录是否正确。 调试 您可以在API Explorer中调试该接口,支持自动认证鉴权。API
获取文件系统异步任务详情 功能介绍 获取文件系统异步任务详情。仅支持查询目录资源使用情况的任务,API请求路径的feature取值为dir-usage,以下简称为DU任务。 接口约束 在2023年8月1号之后创建的文件系统支持该API操作。后端有5min的缓存时间,查询的数据可能
创建文件系统异步任务 功能介绍 创建文件系统异步任务,仅支持异步查询目录资源使用情况,API请求路径的feature取值为dir-usage,以下简称为DU任务。 接口约束 在2023年8月1号之后创建的文件系统支持该API操作。如果存在10个正在执行的任务,则不允许创建新任务。
建另一存储类型的文件系统,请根据业务情况事先规划存储类型。 容量(TB) 3.6 单个文件系统的最大容量,当文件系统的实际使用容量达到该值时,您将无法对文件系统执行写入操作,需要进行扩容。暂无法直接对SFS Turbo文件系统进行缩容操作,请根据实际需要设置文件系统的容量。 当选
存储I/O等待产生空闲,提升GPU/NPU利用率。 大模型TB级Checkpoint文件秒级保存和加载,减少训练任务中断时间。 3 数据导入导出异步化,不占用训练任务时长,无需部署外部迁移工具 训练任务开始前将数据从OBS导入到SFS Turbo,训练过程中写入到SFS Turb
欠费后的服务状态和操作受限说明: 如果账号欠费,进入保留期后您的SFS Turbo文件系统仍会保留,您将无法继续使用SFS Turbo文件系统。关于欠费还款说明请参考欠费还款。如超出保留期仍未缴清欠款,您的数据将自动被系统释放且无法恢复。 关于保留期时长等更多详细介绍,请参见保留期。
nfs-client 执行如下命令,查看是否能解析文件系统共享路径中的域名。 nslookup 文件系统域名 文件系统域名如:xxx.sfsturbo.internal(xxx为文件系统ID)。文件系统域名请从文件系统的共享路径中获取。 无法使用nslookup命令时,需要先安装bin
取消/删除文件系统异步任务 功能介绍 如果异步任务正在执行,则取消并删除任务;否则,删除任务。仅支持删除目录资源使用情况的任务,API请求路径的feature取值为dir-usage,以下简称为DU任务。 接口约束 在2023年8月1号之后创建的文件系统支持该API操作。API请求路径的feature仅支持以下取值:
获取文件系统异步任务列表 功能介绍 获取文件系统异步任务列表。仅支持查询目录资源使用情况的任务,API请求路径的feature取值为dir-usage,以下简称为DU任务。 接口约束 在2023年8月1号之后创建的文件系统支持该API操作。后端有5min的缓存时间,查询的数据可能
在文件系统中存放的单个文件最大支持多少? 20MB/s/TiB、40MB/s/TiB、125MB/s/TiB、250MB/s/TiB、500MB/s/TiB、1000MB/s/TiB等类型的SFS Turbo文件系统支持存放最大为320TB的单个文件;标准型、标准型-增强版(停售
为什么在配额目录下新增了一个文件,查询配额时该目录容量没有变化? 目录配额容量的单位为MiB,当文件大小低于1MiB时,容量可能不会变化,但是文件数量会增加。 为什么修改配额失败? 该目录是否为配额目录,修改后的配额是否比已使用配额高,父级目录是否存在配额目录的配额低于配额设置值。 为什么文件新增到配额目录失败?
如果您想通过API调用完成文件系统权限管理,请参考《高性能弹性文件服务API参考》权限管理章节。 登录高性能弹性文件服务管理控制台。 在SFS Turbo文件系统列表中,找到待添加授权地址的SFS Turbo文件系统并单击目标文件系统名称,进入文件系统详情界面。 在“权限列表”页签,单击“添加”。
自定义告警内容 表2 配置告警内容 参数 参数说明 取值样例 选择类型 根据需要可选择从模板导入或自定义创建。 说明: 当监控范围为指定资源时可选择从模板导入。 从模板导入 模板 选择需要导入的模板。 - 告警策略 触发告警规则的告警策略。 当资源类型选择站点监控、日志监控、自定义