-
查看监控指标 - AI开发平台ModelArts
在左侧导航栏,选择“云服务监控 > ModelArts”。 查看监控图表。 查看在线服务监控图表:单击目标在线服务“操作”列的“查看监控指标”。 查看模型负载监控图标:单击目标在线服务左侧的,在下拉列表中选择模型负载“操作”列的“查看监控指标”。 在监控区域,您可以通过选择时长,查看对应时间的监控数据。
-
监控资源 - AI开发平台ModelArts
监控资源 用户可以通过资源占用情况窗口查看计算节点的资源使用情况,最多可显示最近三天的数据。在资源占用情况窗口打开时,会定期向后台获取最新的资源使用率数据并刷新。 操作一:如果训练作业使用多个计算节点,可以通过实例名称的下拉框切换节点。 操作二:单击图例“cpuUsage”、“g
-
监控 - AI开发平台ModelArts
监控 CES服务监控方案 DCGM监控方案 父主题: DevServer资源配置
-
ModelArts支持的监控指标 - AI开发平台ModelArts
ModelArts支持的监控指标 功能说明 为使用户更好地掌握自己的ModelArts在线服务和对应模型负载的运行状态,云服务平台提供了云监控。您可以使用该服务监控您的ModelArts在线服务和对应模型负载,执行自动实时监控、告警和通知操作,帮助您更好地了解服务和模型的各项性能指标。
-
云监控平台ModelArts监控 - AI开发平台ModelArts
云监控平台ModelArts监控 ModelArts支持的监控指标 设置告警规则 查看监控指标
-
设置告警规则 - AI开发平台ModelArts
只有“运行中”的在线服务,支持对接CES监控。 前提条件 已创建ModelArts在线服务。 已在云监控服务创建ModelArts监控服务。登录“云监控服务”控制台,在“自定义监控”页面,根据界面提示创建ModelArts监控服务。 操作步骤 设置告警规则有多种方式。您可以根据实际应用场景,选择设置告警规则的方式。
-
日志监控 - AI开发平台ModelArts
日志监控 使用ModelArts的exporter功能在Prometheus查看监控数据 使用ModelArts监控自定义指标 如何在AOM上查看ModelArts所有监控指标? 父主题: k8s Cluster资源配置
-
资源监控 - AI开发平台ModelArts
资源监控 概述 使用Grafana查看AOM中的监控指标 在AOM控制台查看ModelArts所有监控指标
-
mox.file与本地接口的对应关系和切换 - AI开发平台ModelArts
DeleteRecursively 一键切换 一键切换的API实现方式为对基础API进行函数替换,在多进程或者多线程环境中一键切换的API可能会带来一些未知问题,因此建议直接调用moxing API即可实现功能的代码尽量不要用这个一键切换功能。 一键切换的API全局只能执行一次,不要在训练脚本中多次调用,避免导致训练失败。
-
查询支持可切换规格列表 - AI开发平台ModelArts
查询支持可切换规格列表 功能介绍 查询Notebook实例可切换的规格列表。 接口约束 暂无约束 调试 您可以在API Explorer中调试该接口,支持自动认证鉴权。API Explorer可以自动生成SDK代码示例,并提供SDK代码示例调试功能。 URI GET /v1/{p
-
弹性裸金属切换操作系统 - AI开发平台ModelArts
才可以执行切换操作系统动作。 在裸金属服务中的更多选项中如下图所示点击切换操作系统 图2 选择操作系统 在切换操作系统界面,选择上一步接收到的共享镜像即可。 图3 选择镜像 父主题: DevServer资源使用
-
操作流程 - AI开发平台ModelArts
操作流程 Grafana支持灵活而又复杂多样的监控视图和模板,可以满足绝大部分情况下用户的诉求。将Grafana的数据源配置完成后,就可以通过Grafana查看AOM保存的所有ModelArts的所有指标。 通过Grafana插件查看AOM中的监控指标的操作流程如下: 安装配置Grafana
-
CES服务监控方案 - AI开发平台ModelArts
CES服务监控方案 场景描述 本文主要介绍如何配置华为云BMS+CES联合提供的裸金属服务器的指标监控方案,可帮助您查看CPU相关监控指标、CPU负载类相关监控指标、内存相关监控指标、磁盘相关监控指标、磁盘I/O类、文件系统类、网卡类、软RAID相关监控指标和进程相关监控指标。 裸金属服务器监控介绍
-
在AOM控制台查看ModelArts所有监控指标 - AI开发平台ModelArts
登录控制台,搜索AOM,进入“应用运维管理 AOM”控制台。 单击“监控 > 指标浏览”,进入“指标浏览”“页面”,单击“添加指标查询”。 添加指标查询信息,单击确定。 添加方式:选择“按指标维度添加”。 指标名称:在右侧下拉框中选择“全量指标”,然后选择想要查询的指标,参考表1、表2、表3
-
使用Grafana查看AOM中的监控指标 - AI开发平台ModelArts
使用Grafana查看AOM中的监控指标 操作流程 安装配置Grafana 配置Grafana数据源 使用Grafana配置Dashboards,查看指标数据 父主题: 资源监控
-
查询服务监控信息 - AI开发平台ModelArts
查询服务监控信息 功能介绍 查询服务监控信息。 调试 您可以在API Explorer中调试该接口,支持自动认证鉴权。API Explorer可以自动生成SDK代码示例,并提供SDK代码示例调试功能。 URI GET /v1/{project_id}/services/{service_id}/monitor
-
监控安全风险 - AI开发平台ModelArts
监控安全风险 ModelArts支持监控ModelArts在线服务和对应模型负载,执行自动实时监控、告警和通知操作,帮助用户更好地了解服务和模型的各项性能指标。详细内容请参见ModelArts支持的监控指标。 父主题: 安全
-
资源池监控 - AI开发平台ModelArts
资源池监控 功能介绍 获取资源池的监控信息。 调试 您可以在API Explorer中调试该接口,支持自动认证鉴权。API Explorer可以自动生成SDK代码示例,并提供SDK代码示例调试功能。 URI GET /v2/{project_id}/pools/{pool_name}/monitor
-
DCGM监控方案 - AI开发平台ModelArts
DCGM监控方案 场景描述 本文主要介绍如何配置DCGM监控。DCGM是用于管理和监控基于Linux系统的NVIDIA GPU大规模集群的一体化工具,提供多种能力,包括主动健康监控、诊断、系统验证、策略、电源和时钟管理、配置管理和审计等。 前提条件 裸金属服务器需要安装drive
-
使用Grafana配置Dashboards,查看指标数据 - AI开发平台ModelArts
修改uid 导入成功后,在Dashboards下,即可看到导入的视图,单击视图即可打开监控。 模板使用 导入成功后,单击想查看的模板即可查看响应内容。这里介绍一些常用功能的使用。 切换数据源和资源池 图6 切换数据源和资源池 单击红框中相应位置,即可出现下拉框,修改响应的数据源和资源池。