检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
资源和成本规划 本节介绍最佳实践中资源规划情况,包含以下内容: 表1 资源和成本规划内容说明 维度 说明 资源规划 OBS:存放训练数据集、预训练模型等数据资源的桶,桶存储类别为“标准存储”,桶策略为“私有”。 SFS Turbo:文件系统类型为“HPC型”,存储类型请根据存储容
创建训练任务 基于SFS Turbo共享文件存储创建ModelArts训练任务。 登录ModelArts管理控制台。 在左侧导航栏中选择“训练管理 > 训练作业”,进入“训练作业”列表。 单击右上角的“创建训练作业”,进入“创建训练作业”页面,在该页面填写训练作业相关参数信息。
SFS容量型文件系统挂载后为什么容量显示为10P? 历史创建的SFS容量型文件系统如果选择了自动扩容,则文件系统是无容量限制的。用户在客户端上执行df -h时,为了显示需要,系统则直接返回了10P。 父主题: 其他类
可以将SFS容量型文件系统升级为SFS Turbo文件系统吗? 不可以。如果希望使用SFS Turbo文件系统,不再需要使用SFS容量型文件系统,可以先将SFS容量型文件系统删除/退订后,重新购买SFS Turbo文件系统。或者同时购买SFS Turbo文件系统后,完成两种文件系
适配pytorch Megatron框架的适配需要提前安装好pytorch及其依赖。 Megatron改动示例 设置环境变量,命令如下所示: AITURBO_BACKUP_ENABLE = True 环境变量“AITURBO_BACKUP_ENABLE”用于配置是否开启内存副本,
可以将SFS Turbo标准型升级为SFS Turbo标准型-增强版吗? 不可以。SFS Turbo不同规格的文件系统之间暂不支持互相转换。 如果希望使用另一种规格的SFS Turbo文件系统,不再需要使用之前规格的文件系统,可以先将原文件系统删除/退订后,重新购买新规格的SFS
选择与文件系统所属VPC相同的云服务器进行挂载。 云服务器上已配置了用于内网解析文件系统域名的DNS服务器的IP地址。 操作步骤 已经成功在北京一可用区2创建一台CentOS系统的云服务器如ecs-whm,如图1所示。 图1 成功创建云服务器 以root用户登录弹性云服务器。安装NFS客户端。
配置SFS Turbo数据淘汰策略 SFS Turbo HPC型文件系统绑定OBS后端之后,建议配置缓存数据淘汰功能。SFS Turbo会自动释放设定时间内没有访问过的文件数据内容,仅保留文件元数据,数据内容释放后不占用SFS Turbo文件系统上的存储空间,再次访问该文件时,将重新从OBS中加载文件数据内容。
为每个用户创建有读写权限的子目录 前提条件 已创建文件系统,并能通过root账号成功挂载到云服务器上。操作步骤请参考创建文件系统本地目录。 已获取到文件系统的挂载地址。 操作步骤 以root账号登录弹性云服务器。 使用以下命令在root账号下使用以下命令添加普通用户账号,下面以添加普通用户Tom为例。
Turbo的自动导出功能当前处于受限使用状态,请提交工单联系技术支持人员进行配置。 文件导出速度受OBS服务的写入带宽上限影响,默认是16Gbit/s,如果大模型训练生成的Checkpoint文件过大、导出速度过慢,可提交工单申请调大OBS服务的写入带宽。 父主题: 基本配置
Linux内核5.4版本之后客户端的NFSv3文件系统顺序读业务场景性能不符合预期,如何处理? 问题描述 在Linux内核5.4版本之后的客户端上挂载NFSv3协议的文件系统,使用cp或dd等方式触发顺序读业务场景,读带宽与每秒请求数明显不符合预期。 问题原因 预读机制:访问内存