检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
组织管理 您可以通过组织管理功能添加部门、管理团队,构建一个稳定的组织体系。 在部门中添加用户时,您需要提前创建用户。 在团队中添加角色时,您需要提前创建角色。 添加部门 单个添加 在角色桌面首页,选择左上角的,单击“管理中心”。 选择“用户及授权管理 > 组织管理”,进入组织管理页面。
训练作业容错检查 用户在训练模型过程中,存在因硬件故障而产生的训练失败场景。针对硬件故障场景,ModelArts提供容错检查功能,帮助用户隔离故障节点,优化用户训练体验。 容错检查包括两个检查项:环境预检测与硬件周期性检查。当环境预检查或者硬件周期性检查任一检查项出现故障时,隔离
重试/停止/运行Workflow节点 重试/停止/继续运行Workflow节点 重试 当单个节点运行失败时,用户可以通过重试按钮重新执行当前节点,无需重新启动工作流。在当前节点的运行状况页面,单击“重试”。在重试之前您也可以前往权限管理页面修改配置,节点重试启动后新修改的配置信息可以在当前执行中立即生效。
配置Grafana数据源 在Grafana配置数据源后,即可通过Grafana查看ModelArts的监控数据。 前提条件 已安装Grafana。 配置Grafana数据源 获取Grafana数据源配置代码。 进入AOM管理控制台。 图1 AOM管理控制台 在左侧导航栏中选择“Prometheus监控
设置断点续训练 什么是断点续训练 断点续训练是指因为某些原因(例如容错重启、资源抢占、作业卡死等)导致训练作业还未完成就被中断,下一次训练可以在上一次的训练基础上继续进行。这种方式对于需要长时间训练的模型而言比较友好。 断点续训练是通过checkpoint机制实现。 checkp
训练作业重调度 当训练作业发生故障恢复时(例如进程级恢复、POD级重调度、JOB级重调度等),作业详情页面中会出现“故障恢复详情”页签,里面记录了训练作业的启停情况。 在ModelArts管理控制台的左侧导航栏中选择“模型训练 > 训练作业”。 在训练作业列表中,单击作业名称进入训练作业详情页面。
修改训练作业优先级 使用专属资源池训练作业时,支持在创建训练作业时设置任务优先级,也支持作业在长时间处于“等待中”的状态时调整优先级。如通过调整作业优先级可以减少作业的排队时长。 什么是训练作业优先级 在用户运行训练作业过程中,需要对训练作业做优先级划分。比如有一些任务是低优先级
制作自定义镜像用于训练模型 训练作业的自定义镜像制作流程 使用预置镜像制作自定义镜像用于训练模型 已有镜像迁移至ModelArts用于训练模型 从0制作自定义镜像用于创建训练作业(Pytorch+Ascend) 从0制作自定义镜像用于创建训练作业(PyTorch+CPU/GPU)
模型配置文件编写说明 模型开发者发布模型时需要编写配置文件config.json。模型配置文件描述模型用途、模型计算框架、模型精度、推理代码依赖包以及模型对外API接口。 配置文件格式说明 配置文件为JSON格式,参数说明如表1所示。 表1 参数说明 参数 是否必选 参数类型 描述
ModelArts导入模型时,如何编写模型配置文件中的安装包依赖参数? 问题描述 从OBS中或者从容器镜像中导入模型时,开发者需要编写模型配置文件。模型配置文件描述模型用途、模型计算框架、模型精度、推理代码依赖包以及模型对外API接口。配置文件为JSON格式。配置文件中的“dep
同步Lite Server服务器状态 Lite Server为一台弹性裸金属服务器,当用户在云服务器页面修改了裸金属服务器状态后,您可通过“同步”功能,同步其状态至ModelArts。 登录ModelArts管理控制台。 在左侧导航栏中,选择“AI专属资源池 > 弹性节点 Server”,进入“节点”列表页面。
创建配置文件 功能介绍 此API用于创建配置文件。 URI POST /v3/{project_id}/cas/configs 表1 路径参数 参数 是否必选 参数类型 描述 project_id 是 String 租户项目ID。获取方法,请参考获取项目ID。 请求消息 表2 请求Header参数
根据环境ID修改环境资源 功能介绍 此API用于通过环境ID修改环境资源。 URI PUT /v3/{project_id}/cas/environments/{environment_id}/resources 表1 路径参数 参数 是否必选 参数类型 描述 project_id
查看配置文件当前版本详情 本章节指导您查看已创建的配置文件当前版本基本信息和配置详情。 前提条件 待查看的配置文件已存在: 配置文件已创建,请参考创建配置文件。 配置文件已导入,请参考导入配置文件。 查看配置文件当前版本详情 登录ServiceStage控制台。 选择“配置管理”。
变量V2 变量定义,变量V2连接器包含“追加到数组变量”、“追加到字符串变量”、“数值递减”、“数值递增”、“变量定义 ”、“变量赋值”六个执行动作。 连接参数 变量连接器无需认证,无连接参数。 追加到数组变量 需要先定义一个数组变量,可将“值”内填写的数据,以字符串的形式追加到
ERROR - fail to load 问题现象 judge日志中出现ERROR - fail to load错误提示,如下图 可能原因 日志中提示加载模型失败,可能是因为容器在启动时加载模型失败。 解决方法 依次单击“初始化Daemon”、“注册任务”和“启动任务”,重启ju
为隔离域关联ACL 网络ACL是一个子网级别的可选安全层,通过与子网关联的出方向/入方向规则控制出入子网的网络流量。ENS支持为已创建的虚拟机类型资源的隔离域关联ACL,本章节介绍如何为隔离域关联ACL。 前提条件 已获取服务运维岗位权限、基础运维岗位权限或运维管理员权限,权限申请操作请参见申请权限。
开发业务报表 监控服务支持对业务数据进行报表开发,为报表添加表格、折线图、柱状图等类型图表来体现业务数据的动态变化,如图1所示。 图1 报表示例 当前支持折线图、柱状图、饼状图、比例进度条、表格、地图、飞行图、CityBar、仪表盘、热力图、信号图、Block、漏斗图、箱线图和拓
Hunyuan-DiT基于Lite Server部署适配PyTorch NPU推理指导(6.3.909) 混元DiT,一个基于Diffusion transformer的文本到图像生成模型,此模型具有中英文细粒度理解能力。 方案概览 本方案介绍了在ModelArts Lite S
LLaMA-VID基于Lite Server适配PyTorch NPU推理指导(6.3.910) 方案概览 本方案介绍了在ModelArts Lite Server上使用昇腾计算资源Ascend Snt9B开展LLaMA-VID的推理过程。 约束限制 本方案目前仅适用于企业客户。