检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
先将权限加入到“策略”当中,再把策略赋给用户组。为了方便用户的权限管理,各个云服务都提供了一些预置的“系统策略”供用户直接使用。如果预置的策略不能满足您的细粒度权限控制要求,则可以通过“自定义策略”来进行精细控制。 表1列出了ModelArts的所有预置系统策略。 表1 ModelArts系统策略
主GPU(逻辑序号为0)收集各GPU的输出,汇总后计算损失 分发损失,各GPU各自反向传播梯度 主GPU收集梯度并更新参数,将更新后的模型参数分发到各GPU 具体流程图如下: 图1 单机多卡数据并行训练 代码改造点 模型分发:DataParallel(model) 完整代码由于代码变动较少,此处进行简略介绍。
监控安全风险 ModelArts支持监控ModelArts在线服务和对应模型负载,执行自动实时监控、告警和通知操作,帮助用户更好地了解服务和模型的各项性能指标。详细内容请参见ModelArts支持的监控指标。 父主题: 安全
附录:训练常见问题 问题1:在训练过程中遇到NPU out of memory 解决方法: 容器内执行以下命令,指定NPU内存分配策略的环境变量,开启动态内存分配,即在需要时动态分配内存,可以提高内存利用率,减少OOM错误的发生。 export PYTORCH_NPU_ALLOC_CONF
附录:训练常见问题 问题1:在训练过程中遇到NPU out of memory 解决方法: 容器内执行以下命令,指定NPU内存分配策略的环境变量,开启动态内存分配,即在需要时动态分配内存,可以提高内存利用率,减少OOM错误的发生。 export PYTORCH_NPU_ALLOC_CONF
子账号的权限,由主用户来控制,主用户通过IAM的权限配置功能设置用户组的权限,从而控制用户组内的子账号的权限。此处的授权列表均按照ModelArts和其他服务的系统预置策略来举例。 表1 服务授权列表 待授权的服务 授权说明 IAM权限设置 是否必选 ModelArts 授予子账号使用ModelArts服务的权限。
附录:微调训练常见问题 问题1:在训练过程中遇到NPU out of memory 解决方法: 容器内执行以下命令,指定NPU内存分配策略的环境变量,开启动态内存分配,即在需要时动态分配内存,可以提高内存利用率,减少OOM错误的发生。 export PYTORCH_NPU_ALLOC_CONF
添加ModelArts委托授权。 新建委托授权策略。 在统一身份认证服务页面的左侧导航选择“权限管理 > 权限”,单击右上角的“创建自定义策略”,设置策略。 “策略名称”:设置自定义策略名称,例如:ma_agency_obs。 “策略配置方式”:选择可视化视图或者JSON视图均可。 “策略内容”:填入如下内容。
Standard模型训练 ModelArts Standard模型训练提供容器化服务和计算资源管理能力,负责建立和管理机器学习训练工作负载所需的基础设施,减轻用户的负担,为用户提供灵活、稳定、易用和极致性能的深度学习训练环境。通过ModelArts Standard模型训练,用户可以专注于开发、训练和微调模型。
在统一身份认证服务页面的左侧导航选择“权限管理 > 权限”,单击右上角的“创建自定义策略”,设置策略,单击“确定”。 “策略名称”:设置自定义策略名称,例如:不允许用户使用公共资源池创建。 “策略配置方式”:选择可视化视图或者JSON视图均可。 “策略内容”:拒绝,云服务中搜索“ModelArts”服务并选
页面的左侧导航选择“权限管理 > 权限”,单击右上角的“创建自定义策略”,设置策略。 添加部署上线使用权限。 “策略名称”:设置自定义策略名称,例如:service。 “策略配置方式”:选择JSON视图。 “策略内容”:填入如下内容。 { "Version": "1.1"
务”的自定义策略,然后将两条策略同时授予用户。 创建ModelArts相关OBS的最小化权限的自定义策略。 登录IAM控制台,在“权限管理>权限”页面,单击“创建自定义策略”。参数配置说明如下: “策略名称”支持自定义。 “策略配置方式”为“JSON视图”。 “策略内容”请参见M
WR Admin”策略。单击“下一步”和“确定”。 图1 给用户组授权策略 添加ModelArts委托授权。 新建委托授权策略。 在统一身份认证服务页面的左侧导航选择“权限管理 > 权限”,单击右上角的“创建自定义策略”,设置策略。 “策略名称”:设置自定义策略名称,例如:ma_agency_obs。
} 重复2.b创建自定义策略2,赋予用户依赖服务ECS、SWR、MRS和SMN的操作权限,ModelArts的操作权限。“策略名称”为“Policy2_AllowOperation”,策略配置方式选择JSON视图,输入策略内容,单击“确定”。 自定义策略“Policy2_Allo
Server上的GPU资源。 DCGM是用于管理和监控基于Linux系统的NVIDIA GPU大规模集群的一体化工具,提供多种能力,包括主动健康监控、诊断、系统验证、策略、电源和时钟管理、配置管理和审计等。 约束限制 仅适用于GPU资源监控。 前提条件 裸金属服务器需要安装driver、cuda、fabric-manager软件包。
ModelArts会挂载硬盘至“/cache”目录,用户可以使用此目录来储存临时文件。“/cache”与代码目录共用资源,不同资源规格有不同的容量。 k8s磁盘的驱逐策略是90%,所以可以正常使用的磁盘大小应该是“cache目录容量 x 0.9”。 裸机的本地磁盘为物理磁盘,无法扩容,如果存储的数据量大,建议使用SFS存放数据,SFS支持扩容。
调整模型后,部署新版本AI应用能否保持原API接口不变? ModelArts提供多版本支持和灵活的流量策略,您可以通过使用灰度发布,实现模型版本的平滑过渡升级。修改服务部署新版本模型或者切换模型版本时,原服务预测API不会变化。 调整模型版本的操作可以参考如下的步骤。 前提条件 已存在部署完成的服务。
Map<String,Object> 计费工作流使用的拓展字段。 policy WorkflowPolicy object 工作流部分运行策略。 with_subscription Boolean 工作流SMN消息订阅开关,默认为false,表示关闭消息订阅开关。 smn_switch
服务对应的依赖策略项)。 操作步骤 使用主用户账号登录管理控制台,鼠标放在右上角用户名,在下拉框中选择“统一身份认证”,进入统一身份认证(IAM)服务。 在统一身份认证服务页面的左侧导航选择“权限管理 > 权限”,单击右上角的“创建自定义策略”,设置策略。 “策略名称”:设置自定
6333错误,如何处理? 问题现象 在使用Notebook过程中,界面出现“ModelArts.6333”报错信息。 原因分析 可能由于实例过负载引起故障,Notebook正在自动恢复中,请刷新页面并等待几分钟。常见原因是内存占用满。 处理方法 当出现此错误时,Notebook会自动恢复,您可以刷新页面,等待几分钟。