搜索_华为云

组织管理 - 硬件开发工具链平台云服务

组织管理您可以通过组织管理功能添加部门、管理团队，构建一个稳定的组织体系。在部门中添加用户时，您需要提前创建用户。在团队中添加角色时，您需要提前创建角色。添加部门单个添加在角色桌面首页，选择左上角的，单击“管理中心”。选择“用户及授权管理 > 组织管理”，进入组织管理页面。

帮助中心 > 硬件开发工具链平台云服务 > 用户指南 > IPDCenter基础服务使用指南 > 统一集成认证
训练作业容错检查 - AI开发平台ModelArts

训练作业容错检查用户在训练模型过程中，存在因硬件故障而产生的训练失败场景。针对硬件故障场景，ModelArts提供容错检查功能，帮助用户隔离故障节点，优化用户训练体验。容错检查包括两个检查项：环境预检测与硬件周期性检查。当环境预检查或者硬件周期性检查任一检查项出现故障时，隔离

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用ModelArts Standard训练模型 > 模型训练高可靠性
重试/停止/运行Workflow节点 - AI开发平台ModelArts

重试/停止/运行Workflow节点重试/停止/继续运行Workflow节点重试当单个节点运行失败时，用户可以通过重试按钮重新执行当前节点，无需重新启动工作流。在当前节点的运行状况页面，单击“重试”。在重试之前您也可以前往权限管理页面修改配置，节点重试启动后新修改的配置信息可以在当前执行中立即生效。

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用Workflow实现低代码AI开发 > 管理Workflow
配置Grafana数据源 - AI开发平台ModelArts

配置Grafana数据源在Grafana配置数据源后，即可通过Grafana查看ModelArts的监控数据。前提条件已安装Grafana。配置Grafana数据源获取Grafana数据源配置代码。进入AOM管理控制台。图1 AOM管理控制台在左侧导航栏中选择“Prometheus监控

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > ModelArts Standard资源监控 > 使用Grafana查看AOM中的监控指标
设置断点续训练 - AI开发平台ModelArts

设置断点续训练什么是断点续训练断点续训练是指因为某些原因（例如容错重启、资源抢占、作业卡死等）导致训练作业还未完成就被中断，下一次训练可以在上一次的训练基础上继续进行。这种方式对于需要长时间训练的模型而言比较友好。断点续训练是通过checkpoint机制实现。 checkp

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用ModelArts Standard训练模型 > 模型训练高可靠性
训练作业重调度 - AI开发平台ModelArts

训练作业重调度当训练作业发生故障恢复时（例如进程级恢复、POD级重调度、JOB级重调度等），作业详情页面中会出现“故障恢复详情”页签，里面记录了训练作业的启停情况。在ModelArts管理控制台的左侧导航栏中选择“模型训练 > 训练作业”。在训练作业列表中，单击作业名称进入训练作业详情页面。

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用ModelArts Standard训练模型 > 模型训练高可靠性
修改训练作业优先级 - AI开发平台ModelArts

修改训练作业优先级使用专属资源池训练作业时，支持在创建训练作业时设置任务优先级，也支持作业在长时间处于“等待中”的状态时调整优先级。如通过调整作业优先级可以减少作业的排队时长。什么是训练作业优先级在用户运行训练作业过程中，需要对训练作业做优先级划分。比如有一些任务是低优先级

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用ModelArts Standard训练模型 > 管理模型训练作业
制作自定义镜像用于训练模型 - AI开发平台ModelArts

制作自定义镜像用于训练模型训练作业的自定义镜像制作流程使用预置镜像制作自定义镜像用于训练模型已有镜像迁移至ModelArts用于训练模型从0制作自定义镜像用于创建训练作业（Pytorch+Ascend）从0制作自定义镜像用于创建训练作业（PyTorch+CPU/GPU）

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 制作自定义镜像用于ModelArts Standard
模型配置文件编写说明 - AI开发平台ModelArts

模型配置文件编写说明模型开发者发布模型时需要编写配置文件config.json。模型配置文件描述模型用途、模型计算框架、模型精度、推理代码依赖包以及模型对外API接口。配置文件格式说明配置文件为JSON格式，参数说明如表1所示。表1 参数说明参数是否必选参数类型描述

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用ModelArts Standard部署模型并推理预测 > 创建模型规范参考
ModelArts导入模型时，如何编写模型配置文件中的安装包依赖参数？ - AI开发平台ModelArts

ModelArts导入模型时，如何编写模型配置文件中的安装包依赖参数？问题描述从OBS中或者从容器镜像中导入模型时，开发者需要编写模型配置文件。模型配置文件描述模型用途、模型计算框架、模型精度、推理代码依赖包以及模型对外API接口。配置文件为JSON格式。配置文件中的“dep

帮助中心 > AI开发平台ModelArts > 常见问题 > Standard推理部署
同步Lite Server服务器状态 - AI开发平台ModelArts

同步Lite Server服务器状态 Lite Server为一台弹性裸金属服务器，当用户在云服务器页面修改了裸金属服务器状态后，您可通过“同步”功能，同步其状态至ModelArts。登录ModelArts管理控制台。在左侧导航栏中，选择“AI专属资源池 > 弹性节点 Server”，进入“节点”列表页面。

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Lite Server） > Lite Server资源管理
创建配置文件 - 应用管理与运维平台 ServiceStage

创建配置文件功能介绍此API用于创建配置文件。 URI POST /v3/{project_id}/cas/configs 表1 路径参数参数是否必选参数类型描述 project_id 是 String 租户项目ID。获取方法，请参考获取项目ID。请求消息表2 请求Header参数

 帮助中心 > 应用管理与运维平台 ServiceStage > API参考 > 应用管理API（v3版本） > 配置管理
根据环境ID修改环境资源 - 应用管理与运维平台 ServiceStage

根据环境ID修改环境资源功能介绍此API用于通过环境ID修改环境资源。 URI PUT /v3/{project_id}/cas/environments/{environment_id}/resources 表1 路径参数参数是否必选参数类型描述 project_id

帮助中心 > 应用管理与运维平台 ServiceStage > API参考 > 应用管理API（v3版本） > 环境
查看配置文件当前版本详情 - 应用管理与运维平台 ServiceStage

查看配置文件当前版本详情本章节指导您查看已创建的配置文件当前版本基本信息和配置详情。前提条件待查看的配置文件已存在：配置文件已创建，请参考创建配置文件。配置文件已导入，请参考导入配置文件。查看配置文件当前版本详情登录ServiceStage控制台。选择“配置管理”。

帮助中心 > 应用管理与运维平台 ServiceStage > 用户指南 > 配置管理 > 查看配置文件版本详情
变量V2 - 应用平台 AppStage
变量V2 - 应用平台 AppStage

变量V2 变量定义，变量V2连接器包含“追加到数组变量”、“追加到字符串变量”、“数值递减”、“数值递增”、“变量定义 ”、“变量赋值”六个执行动作。连接参数变量连接器无需认证，无连接参数。追加到数组变量需要先定义一个数组变量，可将“值”内填写的数据，以字符串的形式追加到

 帮助中心 > 应用平台 AppStage > AI原生应用引擎用户指南 > 管理工作流 > 工作流基础节点说明
ERROR - fail to load - 应用平台 AppStage

ERROR - fail to load 问题现象 judge日志中出现ERROR - fail to load错误提示，如下图可能原因日志中提示加载模型失败，可能是因为容器在启动时加载模型失败。解决方法依次单击“初始化Daemon”、“注册任务”和“启动任务”，重启ju

帮助中心 > 应用平台 AppStage > 常见问题 > 运维中心监控服务 > 异常检测Judge定时任务失败
为隔离域关联ACL - 应用平台 AppStage

为隔离域关联ACL 网络ACL是一个子网级别的可选安全层，通过与子网关联的出方向/入方向规则控制出入子网的网络流量。ENS支持为已创建的虚拟机类型资源的隔离域关联ACL，本章节介绍如何为隔离域关联ACL。前提条件已获取服务运维岗位权限、基础运维岗位权限或运维管理员权限，权限申请操作请参见申请权限。

帮助中心 > 应用平台 AppStage > 运维中心用户指南 > 管理已纳管资源 > 管理网络 > 规划隔离域
开发业务报表 - 应用平台 AppStage

开发业务报表监控服务支持对业务数据进行报表开发，为报表添加表格、折线图、柱状图等类型图表来体现业务数据的动态变化，如图1所示。图1 报表示例当前支持折线图、柱状图、饼状图、比例进度条、表格、地图、飞行图、CityBar、仪表盘、热力图、信号图、Block、漏斗图、箱线图和拓

 帮助中心 > 应用平台 AppStage > 运维中心用户指南 > 监控资源和应用 > 使用业务报表进行业务监控
Hunyuan-DiT基于Lite Server部署适配PyTorch NPU推理指导（6.3.909） - AI开发平台ModelArts

Hunyuan-DiT基于Lite Server部署适配PyTorch NPU推理指导（6.3.909）混元DiT，一个基于Diffusion transformer的文本到图像生成模型，此模型具有中英文细粒度理解能力。方案概览本方案介绍了在ModelArts Lite S

帮助中心 > AI开发平台ModelArts > 最佳实践 > 文生图模型训练推理
LLaMA-VID基于Lite Server适配PyTorch NPU推理指导（6.3.910） - AI开发平台ModelArts

LLaMA-VID基于Lite Server适配PyTorch NPU推理指导（6.3.910）方案概览本方案介绍了在ModelArts Lite Server上使用昇腾计算资源Ascend Snt9B开展LLaMA-VID的推理过程。约束限制本方案目前仅适用于企业客户。

帮助中心 > AI开发平台ModelArts > 最佳实践 > MLLM多模态模型训练推理

总条数： 10000

点击加载更多

您搜索到想要的结果了吗？

是的没搜到

意见反馈

/200

提交反馈取消

组织管理 - 硬件开发工具链平台云服务

训练作业容错检查 - AI开发平台ModelArts

重试/停止/运行Workflow节点 - AI开发平台ModelArts

配置Grafana数据源 - AI开发平台ModelArts

设置断点续训练 - AI开发平台ModelArts

训练作业重调度 - AI开发平台ModelArts

修改训练作业优先级 - AI开发平台ModelArts

制作自定义镜像用于训练模型 - AI开发平台ModelArts

模型配置文件编写说明 - AI开发平台ModelArts

ModelArts导入模型时，如何编写模型配置文件中的安装包依赖参数？ - AI开发平台ModelArts

同步Lite Server服务器状态 - AI开发平台ModelArts

创建配置文件 - 应用管理与运维平台 ServiceStage

根据环境ID修改环境资源 - 应用管理与运维平台 ServiceStage

查看配置文件当前版本详情 - 应用管理与运维平台 ServiceStage

变量V2 - 应用平台 AppStage

ERROR - fail to load - 应用平台 AppStage

为隔离域关联ACL - 应用平台 AppStage

开发业务报表 - 应用平台 AppStage

Hunyuan-DiT基于Lite Server部署适配PyTorch NPU推理指导（6.3.909） - AI开发平台ModelArts

LLaMA-VID基于Lite Server适配PyTorch NPU推理指导（6.3.910） - AI开发平台ModelArts

意见反馈

7*24

备案

专业服务

退订

建议反馈

售前咨询热线