搜索_华为云

使用AI Gallery在线推理服务部署模型 - AI开发平台ModelArts

可以查看推理效果。支持设置时间区间，查看不同时间下的推理效果。仅当推理服务处于“运行中”，才支持查看监控指标。表2 推理效果的指标介绍指标名称指标说明 CPU使用率在推理服务启动过程中，机器的CPU占用情况。内存使用率在推理服务启动过程中，机器的内存占用情况。显卡使用率

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（AI Gallery） > AI Gallery（新版）
如何查看ModelArts训练作业资源占用情况？ - AI开发平台ModelArts

在ModelArts管理控制台，选择“模型训练>训练作业”，进入训练作业列表页面。在训练作业列表中，单击目标作业名称，查看该作业的详情。您可以在“资源占用情况”页签查看到如下指标信息。 CPU：CPU使用率（cpuUsage）百分比（Percent）。 MEM：物理内存使用率（memUsage）百分比（Percent）。

帮助中心 > AI开发平台ModelArts > 常见问题 > Standard模型训练
Cluster资源池节点故障如何定位 - AI开发平台ModelArts

节点故障指标(nt_npg)默认会上报到AOM，您可以在AOM配置短信、邮件等通知方式。以下步骤基于AOM2.0配置。登录AOM控制台。在左侧导航栏选择“告警管理 > 告警规则”，单击“创建”，创建告警规则。设置告警规则（以NPU掉卡为例）。规则类型：选择“指标告警规则”。

帮助中心 > AI开发平台ModelArts > 故障排除 > Lite Cluster
查看模型评估结果 - AI开发平台ModelArts

估，并且给出调优诊断和建议。针对使用预置算法创建训练作业，无需任何配置，即可查看此评估结果（由于每个模型情况不同，系统将自动根据您的模型指标情况，给出一些调优建议，请仔细阅读界面中的建议和指导，对您的模型进行进一步的调优）。针对用户自己编写训练脚本或自定义镜像方式创建的训练作

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用ModelArts Standard训练模型 > 管理模型训练作业
查询算法列表 - AI开发平台ModelArts

reward_attrs 参数参数类型描述 name String 指标名称。 mode String 搜索方向。 max指定时表示指标值越大越好； min指定时表示指标值越小越好。 regex String 指标正则表达式。表19 search_params 参数参数类型描述

 帮助中心 > AI开发平台ModelArts > API参考 > 训练管理
推理业务迁移评估表 - AI开发平台ModelArts

例如：使用了C83版本。 - 性能指标与预期例1：模型：YOLOv5 运行环境：Vnt1 单卡性能指标：QPS 100/s （两进程）性能约束：单次请求最大可以接受时延需小于100ms 性能预期：QPS 130/s 例2：模型：OCR 运行环境：6348（单核48U超线程）性能指标：QPS 10/s（四进程）

帮助中心 > AI开发平台ModelArts > 最佳实践 > GPU业务迁移至昇腾训练推理 > GPU推理业务迁移至昇腾的通用指导
API概览 - AI开发平台ModelArts
API概览 - AI开发平台ModelArts

查询训练作业指定任务的日志（OBS链接）查询训练作业指定任务的日志（OBS链接），可全量查看或直接下载。查询训练作业指定任务的运行指标查询训练作业指定任务的运行指标。查询训练作业列表根据指定查询条件查询用户创建的训练作业列表。查询超参搜索所有trial的结果查询超参搜索所有trial的结果。

帮助中心 > AI开发平台ModelArts > API参考
训练作业运行失败，出现NCCL报错 - AI开发平台ModelArts

练代码中无需设置。训练代码去除NCCL_SOCKET_IFNAME环境变量设置逻辑后，单击右侧“重建”，重新创建训练作业，提交训练作业后等待作业完成。等待训练作业是否变成“已完成”状态。是，故障处理完成。否，则联系技术支持排查节点状态。建议与总结环境变量NCCL_SOC

帮助中心 > AI开发平台ModelArts > 故障排除 > 训练作业 > 训练作业运行失败
资源池统计 - AI开发平台ModelArts

描述 error_code String ModelArts错误码。 error_msg String 具体错误信息。请求示例查询资源池监控信息。 GET https://{endpoint}/v2/{project_id}/pools { } 响应示例状态码：200 OK。

帮助中心 > AI开发平台ModelArts > API参考 > 资源管理
训练作业性能问题 - AI开发平台ModelArts

训练作业性能问题训练作业性能降低父主题：训练作业

 帮助中心 > AI开发平台ModelArts > 故障排除 > 训练作业
迁移评估 - AI开发平台ModelArts
迁移评估 - AI开发平台ModelArts

例如：使用了C83版本。 - 性能指标与预期例1：模型：YOLOv5 运行环境：Vnt1 单卡性能指标：QPS 100/s （两进程）性能约束：单次请求最大可以接受时延需小于100ms 性能预期：QPS 130/s 例2：模型：OCR 运行环境：6348（单核48U超线程）性能指标：QPS 10/s（四进程）

帮助中心 > AI开发平台ModelArts > 最佳实践 > GPU业务迁移至昇腾训练推理 > GPU推理业务迁移至昇腾的通用指导
创建训练作业时出现“实例挂卷失败”的事件 - AI开发平台ModelArts

属资源池的训练作业才能正常挂载SFS。因此，当训练作业挂载SFS失败时，可能是网络不通导致的。处理步骤进入训练作业详情页，在左侧获取SFS Turbo的名称。图1 获取SFS Turbo的名称登录弹性文件服务SFS控制台，在SFS Turbo列表找到训练作业挂载的SFS

帮助中心 > AI开发平台ModelArts > 故障排除 > 训练作业 > 专属资源池创建训练作业
创建Workflow模型注册节点 - AI开发平台ModelArts

通过对ModelArts模型管理的能力进行封装，实现将训练后的结果注册到模型管理中，便于后续服务部署、更新等步骤的执行。主要应用场景如下：注册ModelArts训练作业中训练完成的模型。注册自定义镜像中的模型。属性总览您可以使用ModelStep来构建模型注册节点，ModelStep结构如下：

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用Workflow实现低代码AI开发 > 开发Workflow命令参考 > 创建Workflow节点
在JupyterLab中使用MindInsight可视化作业 - AI开发平台ModelArts

在JupyterLab中使用MindInsight可视化作业 ModelArts支持在开发环境中开启MindInsight可视化工具。在开发环境中通过小数据集训练调试算法，主要目的是验证算法收敛性、检查是否有训练过程中的问题，方便用户调测。 MindInsight能可视化展现出训

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用Notebook进行AI开发调试 > 通过JupyterLab在线使用Notebook实例进行AI开发
训练作业调测 - AI开发平台ModelArts

训练作业调测使用SDK调测单机训练作业使用SDK调测多机分布式训练作业父主题：训练作业

 帮助中心 > AI开发平台ModelArts > SDK参考 > 训练管理 > 训练作业
使用Server-Sent Events协议的方式访问在线服务 - AI开发平台ModelArts

基于HTTP的推送技术，服务器可以向客户端推送事件。这种技术通常用于实现服务器向客户端推送实时数据，例如聊天应用、实时新闻更新等。 SSE主要解决了客户端与服务器之间的单向实时通信需求（例如ChatGPT回答的流式输出），相较于WebSocket（双向实时），它更加轻量级且易于实现。

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用ModelArts Standard部署模型并推理预测 > 将模型部署为实时推理作业 > 访问在线服务支持的传输协议
哪里可以了解Atlas800训练服务器硬件相关内容 - AI开发平台ModelArts

哪里可以了解Atlas800训练服务器硬件相关内容场景描述本文提供Atlas800训练服务器硬件相关指南，包括三维视图、备件信息、HCCL常用方法以及网卡配置信息。 Atlas 800训练服务器三维视图 Atlas 800 训练服务器（型号9000）是基于华为鲲鹏920+Snt9处理器的AI训练

 帮助中心 > AI开发平台ModelArts > 常见问题 > Lite Server
训练作业进程被kill - AI开发平台ModelArts

训练作业进程被kill 问题现象用户进程被Kill表示用户进程因外部因素被Kill或者中断，表现为日志中断。原因分析 CPU软锁在解压大量文件可能会出现此情况并造成节点重启。可以适当在解压大量文件时，加入sleep。比如每解压1w个文件，就停止1s。存储限制根据规格情况

 帮助中心 > AI开发平台ModelArts > 故障排除 > 训练作业 > 业务代码问题
删除训练作业 - AI开发平台ModelArts

删除训练作业功能介绍删除训练作业。此接口为异步接口，作业状态请通过查询训练作业列表和查询训练作业版本详情接口获取。 URI DELETE /v1/{project_id}/training-jobs/{job_id} 参数说明如表1所示。表1 参数说明参数是否必选参数类型

 帮助中心 > AI开发平台ModelArts > API参考 > 历史API > 训练管理（旧版） > 训练作业
资源管理 - AI开发平台ModelArts
资源管理 - AI开发平台ModelArts

更新网络资源查询资源实时利用率创建资源池查询资源池列表查询资源池删除资源池更新资源池资源池监控资源池统计查询资源规格列表查询专属资源池作业列表查询专属资源池作业统计信息

 帮助中心 > AI开发平台ModelArts > API参考

总条数： 571

上一页
1
...
4
5
6
...
29
下一页
跳转

点击加载更多

您搜索到想要的结果了吗？

是的没搜到

意见反馈

/200

提交反馈取消

使用AI Gallery在线推理服务部署模型 - AI开发平台ModelArts

如何查看ModelArts训练作业资源占用情况？ - AI开发平台ModelArts

Cluster资源池节点故障如何定位 - AI开发平台ModelArts

查看模型评估结果 - AI开发平台ModelArts

查询算法列表 - AI开发平台ModelArts

推理业务迁移评估表 - AI开发平台ModelArts

API概览 - AI开发平台ModelArts

训练作业运行失败，出现NCCL报错 - AI开发平台ModelArts

资源池统计 - AI开发平台ModelArts

训练作业性能问题 - AI开发平台ModelArts

迁移评估 - AI开发平台ModelArts

创建训练作业时出现“实例挂卷失败”的事件 - AI开发平台ModelArts

创建Workflow模型注册节点 - AI开发平台ModelArts

在JupyterLab中使用MindInsight可视化作业 - AI开发平台ModelArts

训练作业调测 - AI开发平台ModelArts

使用Server-Sent Events协议的方式访问在线服务 - AI开发平台ModelArts

哪里可以了解Atlas800训练服务器硬件相关内容 - AI开发平台ModelArts

训练作业进程被kill - AI开发平台ModelArts

删除训练作业 - AI开发平台ModelArts

资源管理 - AI开发平台ModelArts

意见反馈

7*24

备案

专业服务

退订

建议反馈

售前咨询热线