检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
单账号跟踪的事件可以通过云审计控制台查询。多账号的事件只能在账号自己的事件列表页面去查看,或者到组织追踪器配置的OBS桶中查看,也可以到组织追踪器配置的CTS/system日志流下面去查看。 用户通过云审计控制台只能查询最近7天的操作记录。如果需要查询超过7天的操作记录,您必须配置转储到对象存储服务(OBS)
e_megabytes) 该指标用于统计测量对象上的尚未被使用的物理内存。 ≥0 兆字节(MB) 可用虚拟内存(aom_cluster_virtual_memory_free_megabytes) 该指标用于统计测量对象上的尚未被使用的虚拟内存。 ≥0 兆字节(MB) 显存可用量
该指标用于统计测量对象已使用的显存占显存容量的百分比。 0~100 百分比(%) gpuMemUsed gpuMemUsed 显存使用量 该指标用于统计测量对象已使用的显存。 ≥0 兆字节(MB) gpuUtil gpuUtil GPU使用率 该指标用于统计测量对象显卡使用率。 0~100
NPU存储使用量 该指标用于统计测量对象已使用的NPU存储。 说明: 仅支持CCE类型主机的NPU指标采集。 ≥0 兆字节(MB) aom_node_npu_usage NPU使用率 该指标用于统计测量对象的NPU使用率。 说明: 仅支持CCE类型主机的NPU指标采集。 0~100 百分比(%)
CPU内核占用(aom_process_cpu_used_core) 该指标用于统计测量对象已经使用的CPU核个数。 ≥0 核(Core) CPU使用率(aom_process_cpu_usage) 该指标用于统计测量对象的CPU使用率。服务实际使用的与申请的CPU核数量比率。 0~100 百分比(%) 句柄数(
该指标用于统计测量对象申请的CPU核总量。 ≥1 核(Core) CPU内核占用(aom_node_cpu_used_core) 该指标用于统计测量对象已经使用的CPU核个数。 ≥0 核(Core) CPU使用率(aom_node_cpu_usage) 该指标用于统计测量对象的CPU使用率。
Management,简称AOM)是云上应用的一站式立体化运维管理平台,融合云监控、云日志、应用性能、真实用户体验、后台链接数据等多维度可观测性数据源,提供应用资源统一管理、一站式可观测性分析和自动化运维方案,帮助用户及时发现故障,全面掌握应用、资源及业务的实时运行状况,提升企业海量运维的自动化能力和效率。
检查内网域名配置 由于上述配置中的数据上报是通过内网进行数据传输,因此需要确保您的Prometheus所在的主机能够解析内网域名,请参考配置内网DNS。 重新启动Prometheus。 可通过通过grafana查看AOM中的指标数据中grafana查询指标数据的方法,来验证上述配置修改后数据上报是否成功。
单击告警条件后的,可将对应行的指标数据和告警条件转换为Prometheus命令。 单击告警条件后的,可快速复制对应行的指标数据及告警条件等信息,并根据需要修改。 单击告警条件后的,可删除对应行指标数据的监控。 图8 设置告警规则详情 表5 告警规则详情填写说明 参数名称 参数说明 多指标 按设置的多个指标
} else { fmt.Println(err) } } 更多编程语言的SDK代码示例,请参见API Explorer的代码示例页签,可生成自动对应的SDK代码示例。 状态码 状态码 描述 200 OK 请求响应成功。 400 BadRequest
2(20%),可能有如下情况: 在整个时间间隔内,有20%的SM的Tensor Core以100%的利用率运行。 在整个时间间隔内,有100%的SM的Tensor Core以20%的利用率运行。 在整个时间间隔的1/5时间内,有100%的SM上的Tensor Core以100%利用率运行。 其他组合模式。
在default、ECS、CCE、通用实例类型的Prometheus实例的“设置”页签,可以获取当前Prometheus实例的Remote Write地址。将原生Prometheus的指标通过Remote Write上报到AOM服务端,即可实现时序数据的长期存储。 如果已经部署并正在使用开源Prometheus,可直接进行4。
使用抑制规则,您可以抑制或阻止与某些特定告警相关的其他告警通知。例如:当严重级别的告警产生时,可以抑制与其相关的低级别的告警。或当节点故障发生时,抑制节点上的进程或者容器的所有其他告警。 注意事项 若在发送告警通知之前抑制条件对应的源告警已恢复正常,则抑制规则失效,抑制对象(被源告警抑制的告警)将正常发送告警通知。
集群监控 集群监控的对象为通过CCE部署的集群。“集群监控”页面可实时监控集群的多项基础监控指标(例如集群状态、CPU使用率、内存使用率、节点运行状态等)和相关的告警、事件数据,通过这些指标和相关的告警信息,用户可实时了解集群的运行状况,及时处理潜在风险,保障集群稳定运行。 注意事项
线程分析 线程分析支持显示该应用的所有线程和查看线程的堆栈信息,帮助您快速定位耗时较高的线程。 由于线程分析获取方法以及对象的实时参数,因此线程的状态等相关信息可能会产生变化。 线程分析 登录AOM 2.0控制台。 在左侧导航栏选择“应用监控 > 组件列表”,进入组件列表页面。
使用抑制规则,您可以抑制或阻止与某些特定告警相关的其他告警通知。例如:当严重级别的告警产生时,可以抑制与其相关的低级别的告警。或当节点故障发生时,抑制节点上的进程或者容器的所有其他告警。 注意事项 若在发送告警通知之前抑制条件对应的源告警已恢复正常,则抑制规则失效,抑制对象(被源告警抑制的告警)将正常发送告警通知。
Debugging诊断可协助用户分析线程状况,获取方法及对象实时参数。方便开发人员从实时的远程应用程序中获取调试信息,而无需重新启动应用程序,也不会阻止它并导致服务停机。 使用限制 为了应用运行稳定,强烈建议您按照要求升级JDK版本,在低版本的JDK上使用Debugging诊断功能,存在应用崩溃的风险。 Debugging诊断仅针对白名单用户开放。
目前对于华北-北京一、华东-上海二和华南-广州区域,统计规则支持关键词统计和SQL统计。两者的区别在于统计对象不同。关键词统计的对象为原始日志;SQL统计的对象为结构化后的日志,且只有返回单个数值的SQL语句才能创建统计规则,例如select count(*) where code >=
填写规则的描述信息。 图1 设置告警基本信息 设置告警规则的详细信息。 设置“规则类型”为“事件类告警”。 设置告警来源、触发对象和触发策略。 表1 告警规则填写说明 参数名称 填写说明 告警来源 事件类告警来源的服务名称,从现有的服务列表中选择。 触发对象 服务事件的筛选条件。
根据需要填写规则的描述信息。 设置规则的详细信息。 设置“规则类型”为“阈值规则”。 选择监控对象。通过以下两种方式选择: 选择资源对象:单击“选择资源对象”,通过“按资源添加”或“按指标维度添加”方式在资源树上选择待监控的资源,设置完成,单击“确定”。 监控对象最多可添加100条指标数据。