检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
配置SWR组织权限 IAM用户创建后,需要管理员在组织中为用户添加授权,使IAM用户对组织内所有镜像享有读取/编辑/管理的权限。 只有具备“管理”权限的账号和IAM用户才能添加授权。 登录容器镜像服务控制台。 在左侧菜单栏选择“组织管理”,单击组织名称。
credential Object 证书信息,请参见表30。 表24 credential字段数据结构说明 参数 参数类型 说明 ssh_private_key String ssh私有证书。 access_token String GitHub的oauth token。
credential Object 证书信息,请参见表30。 表21 credential字段数据结构说明 参数 参数类型 说明 ssh_private_key String ssh私有证书。 access_token String GitHub的oauth token。
退出当前AI任务以便重新执行 Snt3P 300IDuo Snt9B Snt9C NPU: errorcode告警 NPUErrorCodeWarning 重要 这里涵盖了大量重要及以上的NPU错误码,您可以根据这些错误码进一步定位错误原因 对照《黑匣子错误码信息列表》和《健康管理故障定义
用户名密码认证模式 本模式支持OBS管理、训练管理、模型管理、服务管理的鉴权。 示例代码 账号与用户的概念介绍,请参见IAM基本概念。获取您的账号、用户名等信息,请参见获取用户名、用户ID、项目名称、项目ID。 使用账号认证 “username”填写您的账号名。
父主题: 发布和管理AI Gallery数据集
父主题: 发布和管理AI Gallery数据集
使用SDK调测多机分布式训练作业 代码中涉及到的OBS路径,请用户替换为自己的实际OBS路径。 代码是以PyTorch为例编写的,不同的AI框架之间,整体流程是完全相同的,仅需修改7和11中的 framework_type参数值即可,例如:MindSpore框架,此处framework_type
(可选)配置密钥管理权限。如果需要使用ModelArts Notebook的SSH访问功能,依赖密钥管理权限。搜索DEW,勾选“DEW KeypairFullAccess”。
AOM上查看已有监控指标 登录控制台,搜索AOM,进入“应用运维管理 AOM”控制台。 单击“监控 > 指标浏览”,进入“指标浏览”“页面”,单击“添加指标查询”。 图1 示例图片 添加指标查询信息。 图2 示例图片 添加方式:选择“按指标维度添加”。
方式三:对单个版本设置告警规则 登录管理控制台。 在“服务列表”中选择“管理与监管 > 云监控服务”,进入“云监控服务”管理控制台。 在左侧导航栏,选择“云服务监控 > ModelArts”。
配置Workflow的输入输出目录 功能介绍 统一存储主要用于工作流的目录管理,帮助用户统一管理一个工作流中的所有存储路径,主要分为以下两个功能: 输入目录管理:开发者在编辑开发工作流时可以对所有数据的存储路径做统一管理,规定用户按照自己的目录规划来存放数据,而存储的根目录可以根据用户自己的需求自行配置
DCGM是用于管理和监控基于Linux系统的NVIDIA GPU大规模集群的一体化工具,提供多种能力,包括主动健康监控、诊断、系统验证、策略、电源和时钟管理、配置管理和审计等。 约束限制 仅适用于GPU资源监控。
该YAML用于管理Prometheus的配置,部署Prometheus时通过文件系统挂载的方式,容器可以使用这些配置。
父主题: 发布和管理AI Gallery中的AI应用
父主题: 发布和管理AI Gallery中的AI应用
图2 添加指标 关于更多指标浏览方法请参考华为云帮助中心“应用运维管理 AOM> 用户指南(2.0)> 指标浏览”。
使用华为云账号登录ModelArts管理控制台,在左侧导航栏单击“权限管理”,进入“权限管理”页面,单击“添加授权”。
前提条件 如果是发布ModelArts模型,已经在ModelArts的“AI应用管理”中准备好待发布的模型。在“AI应用管理”界面创建或发布模型的相关操作请参见管理AI应用简介。使用容器镜像导入的模型和其他训练产生的模型都支持发布至AI Gallery。
镜像注册的操作步骤如下: 登录ModelArts管理控制台,在左侧导航栏单击“镜像管理”。 在“镜像管理”页面右上角,单击“注册镜像”。