检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
WR Admin”策略。单击“下一步”和“确定”。 图1 给用户组授权策略 添加ModelArts委托授权。 新建委托授权策略。 在统一身份认证服务页面的左侧导航选择“权限管理 > 权限”,单击右上角的“创建自定义策略”,设置策略。 “策略名称”:设置自定义策略名称,例如:ma_agency_obs。
标注结果存储在哪里? ModelArts管理控制台,提供了数据可视化能力,您可以在控制台中查看详细数据以及标注信息。如需了解标注结果的存储路径,请参见如下说明。 背景说明 针对ModelArts中的数据集,在创建数据集时,需指定“数据集输入位置”和“数据集输出位置”。两个参数填写的均是OBS路径。
训练作业调测 使用SDK调测单机训练作业 使用SDK调测多机分布式训练作业 父主题: 训练作业
将多个权重文件合并为一个文件并转换格式 任意并行切分策略的Megatron权重 格式转化为 HuggingFace权重 (该场景一般用于将训练好的megatron模型:预训练、lora、sft 重新转回HuggingFace格式)为下一步推理使用准备,无推理任务忽略此章节,一般训练都是多卡分布式训练权重结果文件为
添加ModelArts委托授权。 新建委托授权策略。 在统一身份认证服务页面的左侧导航选择“权限管理 > 权限”,单击右上角的“创建自定义策略”,设置策略。 “策略名称”:设置自定义策略名称,例如:ma_agency_obs。 “策略配置方式”:选择可视化视图或者JSON视图均可。 “策略内容”:填入如下内容。
] } 策略JSON格式字段介绍 策略结构 策略结构包括Version(策略版本号)和Statement(策略权限语句)两部分,其中Statement可以有多个,表示不同的授权项。 图1 策略结构 策略参数 下面介绍策略参数详细说明。了解策略参数后,您可以根据场景自定义策略。具体可以参考文档自定义策略使用样例。
HPC型文件系统为用户提供一个完全托管的共享文件存储。SFS Turbo文件系统支持无缝访问存储在OBS对象存储桶中的对象,用户可以指定SFS Turbo内的目录与OBS对象存储桶进行关联,然后通过创建导入导出任务实现数据同步。通过OBS与SFS Turbo存储联动,可以将最新的训练数据导入到SFS
HPC型文件系统为用户提供一个完全托管的共享文件存储。SFS Turbo文件系统支持无缝访问存储在OBS对象存储桶中的对象,用户可以指定SFS Turbo内的目录与OBS对象存储桶进行关联,然后通过创建导入导出任务实现数据同步。通过OBS与SFS Turbo存储联动,可以将最新的训练数据导入到SFS
费项包括存储空间和流量费用,目前均免费提供给您。企业版支持按需计费模式。 购买的SWR可以用于上传自定义镜像。 使用容器引擎客户端上传镜像 对象存储服务OBS 对象存储服务提供按需计费和包年包月两种计费模式,用户可以根据实际需求购买OBS服务。 OBS服务支持以下两种存储方式,单
Cluster存储 如果没有挂载任何外部存储,此时可用存储空间根据dockerBaseSize的配置来决定,可访问的存储空间比较小,因此建议通过挂载外部存储空间解决存储空间受限问题。 容器中挂载存储有多种方式,不同的场景下推荐的存储方式不一样,详情如表1所示。容器存储的基础知识了解
子账号的权限,由主用户来控制,主用户通过IAM的权限配置功能设置用户组的权限,从而控制用户组内的子账号的权限。此处的授权列表均按照ModelArts和其他服务的系统预置策略来举例。 表1 服务授权列表 待授权的服务 授权说明 IAM权限设置 是否必选 ModelArts 授予子账号使用ModelArts服务的权限。
配置Lite Server存储 Server服务器支持SFS、OBS、EVS三种云存储服务,提供了多种场景下的存储解决方案,主要区别如下表所示。若需要对本地盘进行配置,请参考物理机环境配置。 表1 表1 SFS、OBS、EVS服务对比 对比维度 弹性文件服务SFS 对象存储服务OBS 云硬盘EVS
附录:微调训练常见问题 问题1:在训练过程中遇到NPU out of memory 解决方法: 容器内执行以下命令,指定NPU内存分配策略的环境变量,开启动态内存分配,即在需要时动态分配内存,可以提高内存利用率,减少OOM错误的发生。 export PYTORCH_NPU_ALLOC_CONF
创建OBS桶用于ModelArts存储数据 由于ModelArts本身没有数据存储的功能,ModelArts使用对象存储服务(Object Storage Service,简称OBS)进行数据存储以及模型的备份和快照,实现安全、高可靠和低成本的存储需求。 AI开发过程中的输入数据、
BMS、RDMA且非ascend-1980 用于支持容器里使用RDMA网卡。 memarts 3.23.6-r002 无约束 无约束 近计算侧分布式缓存插件,用于存储加速。 os-node-agent 6.5.0-20240529142433 无约束 无约束 OS插件,用于故障检测。 icAgent
训练作业的“/cache”目录是否安全? 训练作业一直在等待中(排队)? 创建训练作业时,超参目录为什么有的是/work有的是/ma-user? 在ModelArts创建分布式训练时如何设置NCCL环境变量? 在ModelArts使用自定义镜像创建训练作业时如何激活conda环境? 父主题: Standard训练作业
权重文件格式转换 任意并行切分策略的Megatron权重格式转化为HuggingFace权重(该场景一般用于将训练好的megatron模型:预训练、lora、sft 重新转回HuggingFace格式),为下一步推理使用准备,无推理任务忽略此章节。一般训练都是多卡分布式训练权重结果文件为多
附录:训练常见问题 问题1:在训练过程中遇到NPU out of memory 解决方法: 容器内执行以下命令,指定NPU内存分配策略的环境变量,开启动态内存分配,即在需要时动态分配内存,可以提高内存利用率,减少OOM错误的发生。 export PYTORCH_NPU_ALLOC_CONF
务”的自定义策略,然后将两条策略同时授予用户。 创建ModelArts相关OBS的最小化权限的自定义策略。 登录IAM控制台,在“权限管理>权限”页面,单击“创建自定义策略”。参数配置说明如下: “策略名称”支持自定义。 “策略配置方式”为“JSON视图”。 “策略内容”请参见M
在想要开启高可用冗余的节点操作列,单击“更多 > 开启高可用冗余”,设置成功后,该节点高可用冗余列标签变为“启用”。 如果想批量设置节点开启高可用冗余,可勾选多个节点后,单击列表上方的“开启高可用冗余”按钮实现批量开启。 图1 开启高可用冗余能力 图2 高可用冗余节点 资源池内高可用冗余节点的建议比例: