检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
练程序从已有checkpoint恢复时,每张卡都需要从持久化存储中加载,在训练集群规模较大,存储带宽较低的场景下,加载耗时可能会达到小时级,严重影响训练恢复。因此,我们在AITurbo SDK中提供了快速保存和加载checkpoint的功能,当前流行的两种大模型训练框架Megatron进行简单适配便可使用。
文件系统自动断开挂载 问题描述 文件系统与服务器的连接断开,需要重新挂载。 可能原因 没有配置自动挂载,重启服务器后会自动断开。 解决方法 参考自动挂载文件系统,在云服务器设置重启时进行自动挂载。 提交工单 如果上述方法均不能解决您的疑问,请提交工单寻求更多帮助。
原因7:挂载的目标子目录不存在。 定位思路 根据可能原因进行故障排查。 解决办法 原因1:文件系统已被删除。 登录管理控制台,查看文件系统是否已被删除。 是 => 重新创建文件系统或者选择已有文件系统进行挂载(文件系统与云服务器必须归属在同一VPC下)。 否 => 原因2。 原因2:执行挂载命令的云服务器和被挂载的文件系统不在同一VPC下。
服务器所在的VPC的子网中设置正确的租户DNS。 (可选)重新启动云服务器。 重新执行挂载。 成功=>处理结束。 失败=>原因5。 原因5:挂载的是Ubuntu18及以后版本的操作系统的云服务器。 参考配置DNS章节重新配置DNS。 确认用于挂载的Ubuntu18及以后版本的操作系统的云服务器是否为私有镜像。
查看是否已安装软件包 执行如下命令,安装nfs-utils软件包。 yum -y install nfs-utils 图2 执行安装命令 图3 安装成功 重新执行挂载命令。将文件系统挂载到云服务器上。 mount -t nfs -o vers=3,timeo=600,noresvport,nolock
如果您拥有“Security Administrator”权限,则可直接授权。如果权限不足,需要联系系统管理员获取安全管理员权限,然后再重新操作。 如果创建SFS Turbo文件系统时,则不需要授权。 可以新创建加密或者不加密的文件系统,无法更改已有文件系统的加密属性。 创建加
Turbo会自动释放设定时间内没有访问过的文件数据内容,仅保留文件元数据,数据内容释放后不占用SFS Turbo文件系统上的存储空间,再次访问该文件时,将重新从OBS中加载文件数据内容。 登录SFS管理控制台。 在文件系统列表中,单击创建的HPC型文件系统名称,进入文件系统详情页面。 在“基本信息”页签,设置冷数据淘汰时间。
Turbo不同规格的文件系统之间暂不支持互相转换。 如果希望使用另一种规格的SFS Turbo文件系统,不再需要使用之前规格的文件系统,可以先将原文件系统删除/退订后,重新购买新规格的SFS Turbo文件系统。或者购买新规格的SFS Turbo文件系统后,完成文件系统之间的数据迁移,再将原文件系统删除/退订即可。
Turbo文件系统吗? 不可以。如果希望使用SFS Turbo文件系统,不再需要使用SFS容量型文件系统,可以先将SFS容量型文件系统删除/退订后,重新购买SFS Turbo文件系统。或者同时购买SFS Turbo文件系统后,完成两种文件系统之间的数据迁移,再将SFS容量型文件系统删除/退订即可。
系统可正常访问。 是 => 原因2。 否 => 请参考文件系统出现异常状态,使文件系统状态恢复“可用”后,重新访问文件系统。 原因2:云服务器在强制umount之后,无法重新挂载访问。 此问题是云服务器的缺陷,可以通过重启云服务器来解决。 重启云服务器后,查看是否能正常挂载和访问文件系统。
data obs导入导出操作失败 请重新导入导出obs,若问题未解决,请联系技术支持 500 SFS.TURBO.0105 Failed to obtain OBS import and export task data 获取obs导入导出任务数据失败 请重新获取obs导入导出的数据,如果问题未得到解决,请联系技术支持
如果资源包较小,希望可以扩容:可以叠加购买资源包,且会优先使用原购买资源包的容量。 如果资源包较大,希望可以缩容:暂不支持直接缩容,可以先将原资源包退订后重新购买。 也可以等待本资源包周期结束后重新购买来调整资源包的大小。 父主题: 计费类
Turbo文件系统 管理SFS Turbo文件系统与OBS桶的存储联动 目录配额 加密传输 文件系统权限管理 通过AITurbo加速保存与加载checkpoint
如果资源包较小,希望可以扩容:可以叠加购买资源包,且会优先使用原购买资源包的容量。 如果资源包较大,希望可以缩容:暂不支持直接缩容,可以先将原资源包退订后重新购买。 也可以等待本资源包周期结束后重新购买来调整资源包的大小。 父主题: 计费FAQ
如果还没有导出到OBS,则不会淘汰。 数据淘汰之后,怎么重新将数据导入到SFS Turbo文件系统? 对文件进行读写操作时会重新从OBS桶加载文件数据到SFS Turbo文件系统; 使用数据导入功能重新将数据从OBS桶加载到SFS Turbo文件系统。 什么场景下会发生数据导入失败?
timeo NFS客户端重传请求前的等待时间(单位为0.1秒)。建议值:600。 noresvport 指定NFS客户端向NFS服务端重新发起建立连接时使用新的TCP端口。 强烈建议使用 noresvport 参数,这可以保障网络发生故障恢复事件后文件系统服务不会中断。 lock/nolock
吞吐的数据访问能力,充分发挥 GPU/NPU 的计算性能,包括训练数据的读取,以及为了容错做的检查点(以下简称Checkpoint)保存和加载。训练数据的读取要尽量读得快,减少计算对 I/O 的等待,而 Checkpoint主要要求高吞吐、减少训练中断的时间。 文件接口方式的数据共享访问:由于
00:00(北京时间)将弹性文件服务容量型规格正式停售。 正式停售后,用户无法新购,如您需要继续使用同款产品,请在华北-北京四、华东-上海一、华南-广州区域重新购买通用文件系统,可复用SFS容量型资源包;已购买该产品的用户建议您将数据迁移到通用文件系统或者SFS Turbo。 如您有任何问题,可随时通过提交工单解决。
Turbo文件系统的性能使用情况。当AI算力集群规模变大,大模型参数量变大,导致Checkpoint读加载时间变长时,或训练数据集加载由于存储读写带宽不足导致拖慢AI训练时,您可以对SFS Turbo进行性能扩容,以缩短数据加载时长。详情可参见SFS Turbo监控指标说明和创建告警规则。 调整SFS Turbo数据淘汰策略
在追踪器信息右侧,单击操作下的“停用”。 单击“确定”,完成停用追踪器。 追踪器停用成功后,操作下的“停用”切换为“启用”。如果您需要重新启用追踪器,单击“启用 > 确定”,则系统重新开始记录新的操作。 父主题: 审计