检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
创建分组规则 使用分组规则,您可以从告警中筛选出满足条件的告警子集,然后按分组条件对告警子集分组,告警触发时同组告警会被汇聚在一起发送一条通知。 如图1所示,当分组条件设为“告警级别等于紧急”时,表示系统会先根据分组条件从告警中过滤出满足告警级别为紧急的告警子集,然后根据通知合并
异常日志,可以查看该实例在对应采集器下的应用异常监控数据。 您还可以根据需要执行以下操作: 设置时间范围,查看已设时间范围内的数据。您可以使用AOM预定义的时间标签,例如近1小时、近6小时等,也可以自定义时间范围,最长可设置为30天。 单击列表右上角,在“表格设置”弹框中通过选中
Service,简称OBS)的OBS桶中,以便进行长期存储。如果您有更长时间的日志存储需求,可添加日志转储。 AOM提供周期性转储和一次性转储两种转储方式,供您选择使用。 周期性转储:将当前日志实时转储到OBS桶中,且以转储周期为粒度对1天的日志进行分割,同一时间段的日志将转储到其对应的日志文件中。 例如
组件的调用关系拓扑图。 您可以根据需要执行以下操作: 设置时间范围,查看已设时间范围内的拓扑图。可通过如下两种方式设置时间范围: 方式一:使用AOM预定义好的时间标签,例如,近1小时、近6小时等,您可根据实际需要选择不同的时间粒度。 方式二:通过开始时间和结束时间,自定义时间范围,您最长可设置为30天。
可以查看该实例在对应采集器下的不同指标集下的应用监控数据。 您还可以根据需要执行以下操作: 设置时间范围,查看已设时间范围内的数据。您可以使用AOM预定义的时间标签,例如近1小时、近6小时等,也可以自定义时间范围,最长可设置为30天。 单击列表右上角,在“表格设置”弹框中通过选中
us_JVM_CPU_Time jobmanager中JVM使用的CPU时间。 无 flink_jobmanager_Status_ProcessTree_CPU_Usage JobManager 中JVM的CPU使用率。 无 flink_taskmanager_Status_JVM_CPU_Load
ma_container_memory_util 物理内存使用率 该指标用于统计测量对象已使用内存占申请物理内存总量的百分比。 0~100 百分比(%) ma_container_memory_used_megabytes 物理内存使用量 该指标用于统计测量对象实际已经使用的物理内存(对应containe
应用运维管理AOM API 使用AOM的OPEN API上报指标数据。具体操作请参见:使用API将指标接入(AOM)。 云日志LTS API 使用LTS的OPEN API上报日志数据。具体操作请参见:使用API将日志接入 (LTS)。 应用性能监控APM API 使用APM的OPEN A
在下拉列表中选择您想要查看的APM实例,可以查看该实例下的应用监控数据。 您还可以根据需要执行以下操作: 设置时间范围,查看已设时间范围内的数据。您可以使用AOM预定义的时间标签,例如近1小时、近6小时等,也可以自定义时间范围,最长可设置为30天。 单击进行刷新,有两种方式刷新方式:手动刷新和自动刷新。
Thin pool 元数据空间使用率 (aom_host_diskpartition_thinpool_metadata_percent) 该指标用于统计CCE节点上thinpool元数据空间使用百分比。 0~100 百分比(%) Thin pool 数据空间使用率 (aom_host_
可以查看该实例在对应采集器下的不同指标集下的应用监控数据。 您还可以根据需要执行以下操作: 设置时间范围,查看已设时间范围内的数据。您可以使用AOM预定义的时间标签,例如近1小时、近6小时等,也可以自定义时间范围,最长可设置为30天。 单击列表右上角,在“表格设置”弹框中通过选中
在左侧导航栏中选择“告警 > 事件列表”。 在“事件列表”页面中查看事件。 设置时间范围,查看已设时间范围内产生的事件。可通过如下两种方式设置时间范围: 方式一:使用AOM预定义好的时间标签,例如,近1小时、近6小时、近一天等,您可根据实际需要选择不同的时间粒度。 方式二:通过开始时间和结束时间,自定义时间范围,您最长可设置为31天。
可以查看该实例在对应采集器下的不同指标集下的应用监控数据。 您还可以根据需要执行以下操作: 设置时间范围,查看已设时间范围内的数据。您可以使用AOM预定义的时间标签,例如近1小时、近6小时等,也可以自定义时间范围,最长可设置为30天。 单击列表右上角,在“表格设置”弹框中通过选中
指标举例 组件(进程) CPU内核总量、CPU内核占用、CPU使用率等 主机网络 接收Bps、接收错包率、发送错包率、总Bps。 主机磁盘、文件系统 磁盘读取速率、磁盘写入速率、磁盘使用率。 主机指标 CPU内核总量、物理内存使用率、主机状态、NTP偏移量。 应用性能指标 请求平均时延、错误调用次数、请求吞吐量。
告警规则分为阈值规则和事件类告警规则两种。通常情况下,通过阈值规则,实时监控环境中主机、组件等资源使用情况。当资源使用告警过多,告警通知过于频繁时,通过事件类告警规则,简化告警通知,快速识别服务的某一类资源使用问题并及时解决。 系统支持创建的阈值规则和事件类告警规则总计不能超过1000条,即创
状态、资源使用情况等信息。单击组件名称,可查看该组件所有实例的概况;单击实例名称,可查看进程的监控视图与告警信息。 在“主机列表”页签下,可查看该应用的主机运行状态、资源使用情况等信息。 在“监控视图”页签下,选择对应的Prometheus实例,可查看该应用的资源使用情况。单击页面右上角的,可全屏展示资源信息。
快速分析应用健康状态。 资源监控使用说明 告警管理 AOM支持通过告警规则对应用、资源及业务设置告警条件,当AOM自身或外部服务存在异常或可能存在异常时,将告警信息通过邮件、短信、企业微信等方式发送给指定人员,帮助用户及时发现故障。 告警管理使用说明 父主题: 安全
cce_gpu_utilization gpu卡算力使用率 cce_gpu_memory_utilization gpu卡显存使用率 cce_gpu_encoder_utilization gpu卡编码使用率 cce_gpu_decoder_utilization gpu卡解码使用率 cce_gpu_utilization_process
的操作。 图2 查看线程分析信息 表1 线程分析参数说明 参数名称 说明 线程名称 线程具体名称。 线程ID 线程的ID。 CPU使用率 CPU使用率。 状态 线程状态,包括:NEW、BLOCKED、WAITING、TIMED_WAITING、TERMINATED以及RUNNABLE。
况,用于直观分析数据变化趋势。当需要监控一段时间内一个或多个资源的指标数据趋势时,请使用此类型图表。 使用折线图可对不同资源的同一指标进行对比,如下图所示,在同一个图表中展示了不同主机的CPU使用率。 图1 折线图 表1 折线图图表配置说明 参数类别 参数名称 说明 图形配置 连接方式