检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
会话对象,初始化方法请参考Session鉴权。 job_id 是 String 训练作业的id,可通过创建训练作业生成的训练作业对象查询,如"job_instance.job_id",或从查询训练作业列表的响应中获得。 表2 get_job_log请求参数说明 参数 是否必选 参数类型
在ModelArts控制台查看监控指标 在总览页查看ModelArts监控指标 在ModelArts控制台的总览页,支持查看生产概况(即总体作业运行数量)、资源占用情况、训练作业资源利用情况。您可以单击生产概况的链接、资源池名称、训练作业,跳转到对应界面查看更多详情。 图1 总览页查看监控信息 在总
Standard训练作业模块在训练作业详情页的“资源占用情况”页签中提供了训练作业占用的CPU、GPU或NPU资源使用情况,具体参见支持在ModelArts控制台上直接查看的监控指标。 除了在ModelArts控制台训练作业详情页可以查看训练作业的指标外,更多指标可以登录到AOM控
使用Grafana查看AOM中的监控指标 安装配置Grafana 配置Grafana数据源 配置仪表盘查看指标数据 父主题: ModelArts Standard资源监控
训练作业的监控内存指标持续升高直至作业失败 问题现象 训练作业的“状态”为“运行失败”。 原因分析 训练作业的监控内存指标持续升高,导致最后训练作业失败。 处理步骤 查询训练作业的日志和监控信息,是否存在明确的OOM报错信息。 是,训练作业的日志里存在OOM报错,执行2。 否,训
设置训练作业指标 “按普罗语句添加”方式请参考文档应用运维管理 AOM> 用户指南(2.0)> 指标浏览。 更多可查看的监控指标参见表1和表2。 容器级别的指标介绍 表1 容器级别的指标 分类 名称 指标 指标含义 单位 取值范围 告警阈值 告警级别 处理建议 CPU CPU使用率
source:已配置Grafana数据源; Metric:指标名称,可参考表1、表2、表3获取想要查询的指标; Labels:填写过滤该指标的标签,请参考表4。 图10 创建Dashboards查看指标 父主题: 使用Grafana查看AOM中的监控指标
查询训练作业指定任务的运行指标 功能介绍 查询训练作业指定任务的运行指标。 调试 您可以在API Explorer中调试该接口,支持自动认证鉴权。API Explorer可以自动生成SDK代码示例,并提供SDK代码示例调试功能。 URI GET /v2/{project_id}/
Cluster监控指标 Prometheus是一款开源监控工具,ModelArts支持Exporter功能,方便用户使用Prometheus等第三方监控系统获取ModelArts采集到的指标数据。 本章节主要介绍如何通过Prometheus查看Lite Cluster监控指标。 约束限制
监控资源 用户可以通过资源占用情况窗口查看计算节点的资源使用情况,最多可显示最近三天的数据。在资源占用情况窗口打开时,会定期向后台获取最新的资源使用率数据并刷新。 操作一:如果训练作业使用多个计算节点,可以通过实例名称的下拉框切换节点。 操作二:单击图例“cpuUsage”、“g
登录控制台,搜索AOM,进入“应用运维管理 AOM”控制台。 单击“监控 > 指标浏览”,进入“指标浏览”“页面”,单击“添加指标查询”。 图1 示例图片 添加指标查询信息。 图2 示例图片 添加方式:选择“按指标维度添加”。 指标名称:在右侧下拉框中选择“全量指标”,然后选择想要查询的指标,参考表1、表2
监控安全风险 ModelArts支持监控ModelArts在线服务和对应模型负载,执行自动实时监控、告警和通知操作。 云监控可以帮助用户更好地了解服务和模型的各项性能指标。 详细内容请参见ModelArts支持的监控指标。 父主题: 安全
在告警规则详情页,单击单个指标右上角的加号按钮,对服务或模型版本的单个指标设置告警规则。 查看监控指标 云服务平台提供的云监控,可以对ModelArts在线服务和模型负载运行状态进行日常监控。您可以通过管理控制台,直观地查看ModelArts在线服务和模型负载的各项监控指标。由于监控数据的获取与
delArts所有监控指标。 方式三:通过Grafana查看所有监控指标 当AOM的监控模板不能满足用户诉求时,用户可以使用Grafana可视化工具来查看与分析监控指标。Grafana支持灵活而又复杂多样的监控视图和模板,为用户提供基于网页仪表面板的可视化监控效果,使用户更加直观地查看到实时资源使用情况。
在Grafana配置数据源后,即可通过Grafana查看ModelArts的监控数据。 前提条件 已安装Grafana。 配置Grafana数据源 获取Grafana数据源配置代码。 进入AOM管理控制台。 图1 AOM管理控制台 在左侧导航栏中选择“Prometheus监控 > 实例列表”,在实例列表中单击“Pr
tu20.04。 监控指标采样周期1分钟。当前监控指标项已经包含CPU、内存、磁盘、网络。在主机上安装加速卡驱动后,可以自动采集的相关指标。此处表1仅展示NPU相关指标,其他指标项请参考CES Agent支持的指标列表。 表1 NPU指标列表 序号 分类 指标名称 显示名 说明 单位
在Windows上安装配置Grafana 在Linux上安装配置Grafana 在Notebook上安装配置Grafana 父主题: 使用Grafana查看AOM中的监控指标
在Linux上安装配置Grafana 适用场景 本章节适用于在Linux操作系统的PC中安装配置Grafana。 前提条件 一台可访问外网的Ubuntu服务器。如果没有请具备以下条件: 准备一台ECS服务器(建议规格选8U或者以上,镜像选择Ubuntu,建议选择22.04版本,本
在Windows上安装配置Grafana 适用场景 本章节适用于在Windows操作系统的PC中安装配置Grafana。 操作步骤 下载Grafana安装包。 进入下载链接,单击Download the installer,等待下载成功即可。 安装Grafana。 双击安装包,按照指示流程安装完成即可。
在Notebook上安装配置Grafana 适用场景 本章节适用于在ModelArts Standard的Notebook中安装配置Grafana。 前提条件 已创建CPU或GPU类型的Notebook实例,并处于运行中。 打开Terminal。 操作步骤 在Terminal中依