检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
自定义全屏模式在线时长。 注意事项 为提高安全性,请在不需要使用全屏模式进行监控时,及时退出全屏模式。 全屏模式在线时长与是否操作无关,只要满足已设时长,则退出到登录界面。 全屏模式在线时长以最后一次设置为准。 例如,打开了多个页签在多个显示屏下进行全屏监控,则在线时长以最后一次设置为准。
击。 在弹出的对话框中设置全屏模式在线时长。具体的参数说明请参见表1。 图1 设置在线时长 表1 在线时长参数说明 参数名称 说明 设置方式 在线时长的设置方式,包括以下两种: 自定义在线时长:自定义设置固定时长后,自动退出到登录界面。 持续在线:表示不限制,即全屏界面永远不会自
百分比(%) 显存使用量(aom_node_gpu_memory_used_megabytes) 该指标用于统计测量对象已使用的显存。 ≥0 兆字节(MB) GPU使用率(aom_node_gpu_usage) 该指标用于统计测量对象的GPU使用率。 0~100 百分比(%) NPU
显存已使用量(aom_cluster_gpu_memory_used_megabytes) 该指标用于统计测量对象已使用的显存。 ≥0 兆字节(MB) GPU使用率(aom_cluster_gpu_usage) 该指标用于统计测量对象的GPU使用率。 0~100 百分比(%) 物
cce_gpu_memory_total gpu显存总量 cce_gpu_memory_free gpu显存空闲量 cce_gpu_bar1_memory_used gpu bar1 内存使用量 cce_gpu_bar1_memory_total gpu bar1 内存总量 cce_gpu_clock gpu时钟频率
显存使用量(aom_container_gpu_memory_used_megabytes) 该指标用于统计测量对象已使用的显存。 ≥0 兆字节(MB) GPU使用率(aom_container_gpu_usage) 该指标用于统计测量对象的GPU使用率。 0~100 百分比(%)
0~100 百分比(%) aom_node_gpu_memory_used_megabytes 显存使用量 该指标用于统计测量对象已使用的显存。 ≥0 兆字节(MB) aom_node_gpu_usage GPU使用率 该指标用于统计测量对象的GPU使用率。 0~100 百分比(%) a
在实例的下拉菜单中,选择一个实例,可以查看此实例下所有线程的线程名称、CPU使用率、线程数量。您还可以根据需要执行以下操作: 查询阻塞源线程:在线程分析页面的右上角,单击“查询阻塞源线程”按钮,查看阻塞源线程的具体信息。 重新执行:单击“重新执行”,重新执行查询操作。 搜索线程:在搜
nodeName 主机名称。 主机指标 clusterId 集群ID。 clusterName 集群名称。 gpuName GPU名称。 gpuID GPU ID。 npuName NPU名称。 npuID NPU ID。 hostID 主机ID。 nameSpace 集群的命名空间。
ma_container_gpu_enc_util GPU编码器利用率 表示编码器利用率 0~100 百分比(%) ma_container_gpu_dec_util GPU解码器利用率 表示解码器利用率 0~100 百分比(%) DCGM_FI_DEV_GPU_TEMP GPU温度 表示GPU温度。
设置全屏模式在线时长 选择待操作的仪表盘,在“仪表盘”页面右上角单击。 在弹出的对话框中设置全屏模式在线时长。 图8 设置在线时长 说明: 自定义在线时长:默认在线时长为1小时,您可在文本框中输入1~24小时。 例如,在文本框中输入2,则2小时后自动退出到登录界面。 保持在线:表示不
仪表盘监控 AOM仪表盘监控概述 创建AOM仪表盘 创建AOM仪表盘(新版) 设置AOM仪表盘全屏模式在线时长 设置AOM仪表盘过滤器 可观测大屏监控 统计图表说明 统计图表说明(新版)
该指标用于统计每秒写入磁盘的数据量。 ≥0 千字节/秒(kB/s) GPU aom_node_gpu_memory_free_megabytes gpuMemCapacity 显存容量 该指标用于统计测量对象的显存容量。 ≥0 兆字节(MB) aom_node_gpu_memory_usage gpuMemUsage
OM默认为系统组件(系统组件包括icagent、css-defender、nvidia-driver-installer、nvidia-gpu-device-plugin、kube-dns、org.tanukisoftware.wrapper.WrapperSimpleApp、e
SDK概述 本文介绍了AOM服务提供的SDK语言版本,列举了最新版本SDK的获取地址。 在线生成SDK代码 API Explorer能根据需要动态生成SDK代码功能,降低您使用SDK的难度,推荐使用。 SDK列表 表1提供了AOM服务支持的SDK列表,您可以在GitHub仓库查看
统计当前实例下流转流控失败数 ≥0 次 同时在线设备数 iotda_max_online_devices_totalCount 每天最大同时在线设备数 统计当前实例下每天最大同时在线设备数 ≥0 个 iotda_max_online_devices_percent 最大同时在线设备数百分比 统计当前实例下每天最大同时在线设备数百分比
OM默认为系统组件(系统组件包括icagent、css-defender、nvidia-driver-installer、nvidia-gpu-device-plugin、kube-dns、org.tanukisoftware.wrapper.WrapperSimpleApp、evs-driver
12.98 增加LTS日志黑名单功能,更改容器指标来源为working_set 5.12.96 新增云资源发现类型 5.12.90 更新gpu指标来源 5.12.87 新增磁盘支持类型 5.12.75 适配安全容器场景 父主题: 资源接入AOM
天的调用链数据来训练调用链模型。默认每14天后台自动更新模型,并将模型保存在后台数据库中。 在线推理阶段:当用户单击事件卡片,进入到根因分析页面时,会触发根因分析模型的在线推理任务,在线推理任务会基于上一步离线训练完的调用链模型与事件发生期间的异常调用进行模式对比,分析事件根因,进行快速定位。
常见使用问题 没有消息通知服务的访问权限? 资源运行异常怎么办? 如何设置全屏模式在线时长? 日志配额已达到90%或已满怎么办? 如何获取AK/SK? 如何查询服务不可用时间? AOM告警规则状态为什么显示“数据不足”? 正常状态的工作负载,AOM界面显示异常是什么原因? 如何创建委托apm_admin_trust