检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
练程序从已有checkpoint恢复时,每张卡都需要从持久化存储中加载,在训练集群规模较大,存储带宽较低的场景下,加载耗时可能会达到小时级,严重影响训练恢复。因此,我们在AITurbo SDK中提供了快速保存和加载checkpoint的功能,当前流行的两种大模型训练框架Megatron进行简单适配便可使用。
查看是否已安装软件包 执行如下命令,安装nfs-utils软件包。 yum -y install nfs-utils 图2 执行安装命令 图3 安装成功 重新执行挂载命令。将文件系统挂载到云服务器上。 mount -t nfs -o vers=3,timeo=600,noresvport,nolock
Turbo会自动释放设定时间内没有访问过的文件数据内容,仅保留文件元数据,数据内容释放后不占用SFS Turbo文件系统上的存储空间,再次访问该文件时,将重新从OBS中加载文件数据内容。 登录SFS管理控制台。 在文件系统列表中,单击创建的HPC型文件系统名称,进入文件系统详情页面。 在“基本信息”页签,设置冷数据淘汰时间。
文件系统自动断开挂载 问题描述 文件系统与服务器的连接断开,需要重新挂载。 可能原因 没有配置自动挂载,重启服务器后会自动断开。 解决方法 参考自动挂载文件系统,在云服务器设置重启时进行自动挂载。 提交工单 如果上述方法均不能解决您的疑问,请提交工单寻求更多帮助。
原因2:网络连接异常。 定位思路 排除网络问题后,重试挂载命令。 解决方法 原因1和原因2:网络状态不稳定;网络连接异常。 修复网络,网络修复完成后重新执行挂载。 成功=>处理结束。 失败=>请联系技术支持。
DNS配置正确,排查其他可能原因。 否 => DNS配置不正确,请参考配置DNS章节重新配置DNS。 原因5:挂载的目标子目录不存在。 先将文件系统挂载至根目录上,完成创建子目录后,卸载文件系统,再重新将文件系统挂载至子目录上即可。
安全组”找到目标安全组进行修改即可。 推荐SFS Turbo实例使用单独的安全组,与业务节点隔离。 图1 添加入方向规则 单击“确定”,完成安全组配置。重新访问文件系统进行验证。
Turbo不同规格的文件系统之间暂不支持互相转换。 如果希望使用另一种规格的SFS Turbo文件系统,不再需要使用之前规格的文件系统,可以先将原文件系统删除/退订后,重新购买新规格的SFS Turbo文件系统。或者购买新规格的SFS Turbo文件系统后,完成文件系统之间的数据迁移,再将原文件系统删除/退订即可。
可能原因 云服务器在强制umount之后,无法挂载。 定位思路 根据可能原因进行故障排查。 解决方法 云服务器在强制umount之后,无法重新挂载访问。 此问题是云服务器的缺陷,可以通过重启云服务器来解决。 重启云服务器后,查看是否能正常挂载和访问文件系统。 是 => 处理结束。
吞吐的数据访问能力,充分发挥 GPU/NPU 的计算性能,包括训练数据的读取,以及为了容错做的检查点(以下简称Checkpoint)保存和加载。训练数据的读取要尽量读得快,减少计算对 I/O 的等待,而 Checkpoint主要要求高吞吐、减少训练中断的时间。 文件接口方式的数据共享访问:由于
如果还没有导出到OBS,则不会淘汰。 数据淘汰之后,怎么重新将数据导入到SFS Turbo文件系统? 对文件进行读写操作时会重新从OBS桶加载文件数据到SFS Turbo文件系统; 使用数据导入功能重新将数据从OBS桶加载到SFS Turbo文件系统。 什么场景下会发生数据导入失败?
data obs导入导出操作失败 请重新导入导出obs,若问题未解决,请联系技术支持 500 SFS.TURBO.0105 Failed to obtain OBS import and export task data 获取obs导入导出任务数据失败 请重新获取obs导入导出的数据,如果问题未得到解决,请联系技术支持
timeo NFS客户端重传请求前的等待时间(单位为0.1秒)。建议值:600。 noresvport 指定NFS客户端向NFS服务端重新发起建立连接时使用新的TCP端口。 强烈建议使用 noresvport 参数,这可以保障网络发生故障恢复事件后文件系统服务不会中断。 lock/nolock
timeo NFS客户端重传请求前的等待时间(单位为0.1秒)。建议值:600。 noresvport 指定NFS客户端向NFS服务端重新发起建立连接时使用新的TCP端口。 强烈建议使用noresvport参数,这可以保障网络发生故障恢复事件后文件系统服务不会中断。 nolock
选择存储库,单击“确定”。如果已绑定存储库,请跳过步骤5-步骤7。 如果您想绑定其他存储库,可单击“购买SFS Turbo备份存储库”进行重新购买并选择绑定,购买备份存储库操作请详见购买SFS Turbo备份存储库 在备份副本列表的操作列单击“创建文件系统”。 图5 创建文件系统
该指标用于统计测量客户端连接数。 说明: 连接数统计的是活跃的客户端链接。 如果客户端长时间无 IO,网络链接会自动断开,当有 IO 时客户端会自动重新建立网络链接。 ≥ 0 高性能弹性文件服务 1分钟 data_read_io_bytes 读带宽 该指标用于测量读I/O负载。 单位:byte/s
将云上成本分组,归集到特定的团队或项目业务中,让各责任组织及时了解各自的成本情况。 华为云成本中心支持通过多种不同的方式对成本进行归集和重新分配,您可以根据需要选择合适的分配工具。 通过关联账号进行成本分配 企业主客户可以使用关联账号对子客户的成本进行归集,从而对子账号进行财务
在追踪器信息右侧,单击操作下的“停用”。 单击“确定”,完成停用追踪器。 追踪器停用成功后,操作下的“停用”切换为“启用”。如果您需要重新启用追踪器,单击“启用 > 确定”,则系统重新开始记录新的操作。 父主题: 使用CTS审计SFS Turbo文件系统
Turbo文件系统的性能使用情况。当AI算力集群规模变大,大模型参数量变大,导致Checkpoint读加载时间变长时,或训练数据集加载由于存储读写带宽不足导致拖慢AI训练时,您可以对SFS Turbo进行性能扩容,以缩短数据加载时长。详情可参见SFS Turbo监控指标说明和创建告警规则。 调整SFS Turbo数据淘汰策略