检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
安装ICAgent 本章节以在ECS控制台购买的一台ECS为例,演示如何为其安装ICAgent并在AOM界面对其进行监控。 注意事项 已购买一台ECS。 ECS的操作系统满足AOM支持的操作系统及版本。 请提前获取AK/SK。 本地浏览器时间和ECS时间一致。 安装ICAgent
AOM 最佳实践一览表 最佳实践 说明 建设完整指标体系,实现立体化监控 本文档介绍如何建设完整的指标体系和统一监控大盘,实现资源和应用的全方位、立体化、可视化监控。 通过告警降噪清除告警风暴 本文档介绍如何为告警规则配置告警降噪功能,在发送告警通知前按告警降噪规则对告警进行处理,处理完成后再发送通知,避免产生告警风暴。
录云服务资源的操作。在创建数据类追踪器后,系统开始记录用户对OBS桶中数据的操作。云审计服务管理控制台会保存最近7天的操作记录。 本节介绍如何在云审计服务管理控制台查看或导出最近7天的操作记录: 在新版事件列表查看审计事件 在旧版事件列表查看审计事件 使用限制 单账号跟踪的事件可
千字节/秒(kB/s) 磁盘写入速率(aom_container_disk_write_kilobytes) 该指标用于统计每秒写入磁盘的数据量。 ≥0 千字节/秒(kB/s) 文件系统可用(aom_container_filesystem_available_capacity_megabytes)
录云服务资源的操作。在创建数据类追踪器后,系统开始记录用户对OBS桶中数据的操作。云审计服务管理控制台会保存最近7天的操作记录。 本节介绍如何在云审计服务管理控制台查看或导出最近7天的操作记录: 在新版事件列表查看审计事件 在旧版事件列表查看审计事件 使用限制 单账号跟踪的事件可
容器区分IO操作对磁盘的使用总量 container_memory_failures_total 容器内存分配失败的累积计数 container_memory_failcnt 容器内存使用达到限制的次数 container_memory_cache 容器总页缓存内存 container_memory_mapped_file
常见计费问题 如何查看每天的自定指标上报量? AOM控制台的“资源消耗”界面会展示每天指标上报量展示,具体操作请参见统计资源消耗。 如何查看有哪些Prometheus指标? 目前仅default类型、CCE类型、云服务类型的Prometheus实例支持指标查看功能。 登录AOM 2
≥0 无 ai_cpu_rate ai_cpu_rate AI cpu占用率 昇腾AI加速卡的AI CPU使用率,由用户调用edgecore接口上报。 0~100 百分比(%) ai_core_rate ai_core_rate AI core占用率 昇腾AI加速卡的AI Core
统计当前实例/资源空间下命令成功数 ≥0 次 iotda_command_failedCount 命令失败数 统计当前实例/资源空间下命令失败数 ≥0 次 流控数据 iotda_flowcontrol_north_failedCount API调用流控失败数 统计当前实例下调用API流控失败次数
podName=""} aom_container_cpu_used_core{podID="573663db-4f09-4f30-a432-7f11bdb8fb2e",podName="icagent-bkm6q"} 容器上行Bps {containerID="",containerName=""}
告警级别:${event_severity} 发生时间:${starts_at} 发生区域:${region_name} 华为云账号:${domain_name} 告警源:$event.metadata.resource_provider 资源类型:$event.metadata.resource_type
告警管理 如何区分告警和事件?
None 操作指导 应用运维管理 AOM 如何创建告警规则 04:10 创建告警规则
envoy_cluster_circuit_breakers_default_remaining_cx 连接断路器的剩余连接数 断路器达到并发限制之前的剩余连接数。 ≥0 个 envoy_cluster_circuit_breakers_high_remaining_cx envoy_cluster_circu
≥0 千字节/秒(kB/s) aom_container_disk_write_kilobytes 磁盘写入速率 该指标用于统计每秒写入磁盘的数据量。 ≥0 千字节/秒(kB/s) aom_container_filesystem_available_capacity_megabytes
Prometheus监控 基础设施监控 应用监控 常见问题 了解更多常见问题、案例和解决方案 常见使用问题 如何区分告警和事件? 怎样查看AOM中的日志是通过哪个应用产生的? 如何区分Prometheus监控功能采集的基础指标和自定义指标数据? ICAgent和UniAgent是同一个插件吗?
{Site domain name suffix}/v1/{project_id}/api/v1/read' Remote Read地址的参数说明如下: region_name:指定承载REST服务端点的服务器域名或IP,不同服务不同区域的名称不同。 Site domain name suffix
其他常见问题 AOM 1.0与AOM 2.0使用对比 AOM与APM有何区别? AOM的日志服务与LTS的日志服务有何区别? 如何创建委托apm_admin_trust?
在搜索栏中,输入搜索条件。单击,查看在该站点下满足搜索条件的线程信息。 线程分析展示:线程名称,CPU使用率以及线程数量。 支持按照NEW、BLOCKED、WAITING、TIMED_WAITING、TERMINATED、RUNNABLE分类,分别展示对应的耗时信息以及数量。 单击线程名称前,展示该线程分析信息,
请检查对应的参数是否符合要求。 SVCSTG.PE.4031012 Failed to verify the project ID. 请检查对应的参数是否符合要求。 SVCSTG.PE.4033008 Failed to update the scheduled or periodic