检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
用户组。为了方便用户的权限管理,各个云服务都提供了一些预置的“系统策略”供用户直接使用。如果预置的策略不能满足您的细粒度权限控制要求,则可以通过“自定义策略”来进行精细控制。 表1列出了ModelArts的所有预置系统策略。 表1 ModelArts系统策略 策略名称 描述 类型
列的“删除”,确认后即可将已经托管的文件从AI Gallery仓库中删除。 文件删除后不可恢复,请谨慎操作。 管理数据集可用范围 仅当发布数据集时,“可用范围”启用“申请用户可用”时,才支持管理数据集的可用范围。管理操作包含如何添加可使用资产的新用户、如何审批用户申请使用资产的请求。
发布和管理AI Gallery项目 在AI Gallery中,您可以将个人开发的Notebook代码免费分享给他人使用。 前提条件 在ModelArts的Notebook或者CodeLab中已创建好ipynb文件,开发指导可参见开发工具。 发布Notebook 登录ModelArts管理控制台,选择“开发环境
管理AI Gallery中的AI应用 当AI应用创建完成后,支持修改内容,例如修改环境变量、可见范围。 约束限制 当AI应用的“可见范围”是“私密”时,才支持修改环境变量、可见范围或删除AI应用。 管理AI应用环境变量 AI应用支持增删改查环境变量,配置好的环境变量可以在运行文件中直接调用。
管理训练容器环境变量 什么是环境变量 本章节展示了训练容器环境中预置的环境变量,方便用户查看,主要包括以下类型。 路径相关环境变量 分布式训练作业环境变量 NCCL(Nvidia Collective multi-GPU Communication Library)环境变量 OBS环境变量
开发环境管理 创建Notebook实例 查询Notebook实例列表 查询所有Notebook实例列表 查询Notebook实例详情 更新Notebook实例 删除Notebook实例 通过运行的实例保存成容器镜像 查询Notebook支持的有效规格列表 查询Notebook支持的可切换规格列表
ModelArts Standard资源管理 Standard资源池功能介绍 创建Standard专属资源池 管理Standard专属资源池
管理模型训练作业 查看训练作业详情 查看训练作业资源占用情况 查看模型评估结果 查看训练作业事件 查看训练作业日志 修改训练作业优先级 使用Cloud Shell调试生产训练作业 重建、停止或删除训练作业 管理训练容器环境变量 查看训练作业标签 父主题: 使用ModelArts Standard训练模型
模型管理权限 表1 模型管理细化权限说明 权限 对应API接口 授权项 依赖的授权项 IAM项目 企业项目 导入模型 POST /v1/{project_id}/models modelarts:model:create obs:bucket:ListAllMybuckets o
DevServer管理 查询用户所有DevServer实例列表 创建DevServer 查询DevServer实例详情 删除DevServer实例 实时同步用户所有DevServer实例状态 启动DevServer实例 停止DevServer实例
管理开发环境实例 功能介绍 该接口用于启动、停止、重启、排队、取消排队开发环境Notebook实例。 URI POST /v1/{project_id}/demanager/instances/{instance_id}/action 参数说明如表1所示。 表1 参数说明 参数 是否必选
队标注作业的名称后带有标识。) 单击作业操作列的“更多>标注人员管理”。或单击作业名称进入作业详情,继续单击右上角“团队标注>标注人员管理”,进入成员管理页面。 图3 进入标注人员管理页(1) 图4 进入标注人员管理页(2) 添加成员: 单击页面“添加成员”,选择成员名称,单击确定。
Server上配置DCGM监控,用于监控Lite Server上的GPU资源。 DCGM是用于管理和监控基于Linux系统的NVIDIA GPU大规模集群的一体化工具,提供多种能力,包括主动健康监控、诊断、系统验证、策略、电源和时钟管理、配置管理和审计等。 约束限制 仅适用于GPU资源监控。 前提条件 裸金属
管理Workflow工作流 启动Workflow 登录ModelArts管理控制台,在左侧导航栏选择“开发空间>Workflow”,进入Workflow总览页面。 有3种操作方式运行工作流。 工作流列表页:单击操作栏的“启动”按钮,出现启动Workflow询问弹窗,单击“确定”。
系统容器异常退出 问题现象 在训练创建后出现“系统容器异常退出”的故障。 [ModelArts Service Log]2022-10-11 19:18:23,267 - file_io.py[1ine:748] - ERROR: stat:404 errorCode:NoSuchKey
动态挂载OBS并行文件系统 什么是动态挂载OBS并行文件系统 并行文件系统(Parallel File System)是对象存储服务(Object Storage Service,OBS)提供的一种经过优化的高性能文件系统,详细介绍可以参见并行文件系统。 在ModelArts运行
配置Standard专属资源池可访问公网 使用TMS标签实现资源分组管理 管理Standard专属资源池的游离节点 释放Standard专属资源池和删除网络 父主题: ModelArts Standard资源管理
print(task_info) 参数说明 表1 请求参数 参数 是否必选 参数类型 描述 task_id 是 String 标注任务的ID。 父主题: 标注任务管理
数据集版本管理 查询数据集版本列表 创建数据集版本 查询数据集版本详情 删除数据集版本 父主题: 数据管理
使用TMS标签实现资源分组管理 ModelArts支持对接标签管理服务TMS,在ModelArts中创建资源消耗性任务时,可以为这些任务配置标签,通过标签实现资源的多维分组管理。 ModelArts支持配置标签的任务有:创建训练作业任务、创建Notebook、创建推理在线服务、创建ModelArts