检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
适配pytorch Megatron框架的适配需要提前安装好pytorch及其依赖。 Megatron改动示例 设置环境变量,命令如下所示: AITURBO_BACKUP_ENABLE = True 环境变量“AITURBO_BACKUP_ENABLE”用于配置是否开启内存副本,
可以将SFS Turbo标准型升级为SFS Turbo标准型-增强版吗? 不可以。SFS Turbo不同规格的文件系统之间暂不支持互相转换。 如果希望使用另一种规格的SFS Turbo文件系统,不再需要使用之前规格的文件系统,可以先将原文件系统删除/退订后,重新购买新规格的SFS
选择与文件系统所属VPC相同的云服务器进行挂载。 云服务器上已配置了用于内网解析文件系统域名的DNS服务器的IP地址。 操作步骤 已经成功在北京一可用区2创建一台CentOS系统的云服务器如ecs-whm,如图1所示。 图1 成功创建云服务器 以root用户登录弹性云服务器。安装NFS客户端。
配置SFS Turbo数据淘汰策略 SFS Turbo HPC型文件系统绑定OBS后端之后,建议配置缓存数据淘汰功能。SFS Turbo会自动释放设定时间内没有访问过的文件数据内容,仅保留文件元数据,数据内容释放后不占用SFS Turbo文件系统上的存储空间,再次访问该文件时,将重新从OBS中加载文件数据内容。
Turbo文件系统在同一个Region。 不支持 勾选“将OBS桶的读写权限通过桶策略授权给SFS Turbo云服务”。 单击“确定”,完成绑定。 指定导入目录和文件的默认权限,请参考《高性能弹性文件服务API参考》的“绑定后端存储”和“更新后端存储属性”章节执行操作。 父主题: 基本配置
果选择“可视化视图”请跳转至该步骤,如果选择“JSON视图”请跳转至该步骤。 在“策略内容”下配置策略。 选择“允许”。 选择云服务,勾选“弹性文件服务(SFSTurbo)”。 选择“操作”,勾选只读操作“sfsturbo:shares:showShareNic”、“sfstur
为每个用户创建有读写权限的子目录 前提条件 已创建文件系统,并能通过root账号成功挂载到云服务器上。操作步骤请参考创建文件系统本地目录。 已获取到文件系统的挂载地址。 操作步骤 以root账号登录弹性云服务器。 使用以下命令在root账号下使用以下命令添加普通用户账号,下面以添加普通用户Tom为例。
Turbo的自动导出功能当前处于受限使用状态,请提交工单联系技术支持人员进行配置。 文件导出速度受OBS服务的写入带宽上限影响,默认是16Gbit/s,如果大模型训练生成的Checkpoint文件过大、导出速度过慢,可提交工单申请调大OBS服务的写入带宽。 父主题: 基本配置
上传数据至OBS并预热到SFS Turbo中 上传数据至OBS 已经在OBS上创建好普通OBS桶,请参见创建普通OBS桶。 已经安装obsutil,请参考下载和安装obsutil。 登录Imagenet数据集下载官网地址,下载Imagenet21k数据集:http://image-net
存checkpoint;第二阶段,拥有相同checkpoint的节点会选择代表节点异步写一份完整的checkpoint到SFS Turbo服务端进行持久化存储,通过异步方式最大程度隐藏了checkpoint持久化到远端存储的耗时,实现checkpoint秒级同步保存,避免训练任务
Linux内核5.4版本之后客户端的NFSv3文件系统顺序读业务场景性能不符合预期,如何处理? 问题描述 在Linux内核5.4版本之后的客户端上挂载NFSv3协议的文件系统,使用cp或dd等方式触发顺序读业务场景,读带宽与每秒请求数明显不符合预期。 问题原因 预读机制:访问内存