检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
集群监控 集群监控的对象为通过CCE部署的集群。“集群监控”页面可实时监控集群的多项基础监控指标(例如集群状态、CPU使用率、内存使用率、节点运行状态等)和相关的告警、事件数据,通过这些指标和相关的告警信息,用户可实时了解集群的运行状况,及时处理潜在风险,保障集群稳定运行。 注意事项
+ 虚拟内存总量) - (可用物理内存 + 可用虚拟内存)) / (物理内存容量 + 虚拟内存总量)。 目前创建的虚机默认虚拟内存为0,在未配置虚拟内存的情况下,监控页面内存使用率,虚拟内存使用率相同。 物理磁盘已使用总容量和物理磁盘总容量指标仅统计本地磁盘分区的文件系统类型,不统
组件监控 组件即您部署的服务,包括容器和普通进程。例如,云容器引擎(CCE)服务中的工作负载(workload)可以是一个组件,同时直接在虚机上运行的tomcat也可以是一个组件。 组件列表展示了每个组件的类型、CPU占用、内存占用和告警状态等信息,您可直观了解每个组件的运行状态
参考文档链接 主机组管理 主机组是为了便于分类管理、提升配置多个主机日志采集的效率,对主机进行虚拟分组的单位。云日志服务支持通过一个接入配置来采集多台主机上的日志,您可以将这些主机加入到同一个主机组,并将该主机组关联至对应的接入配置中,方便您对多台主机日志进行采集。 登录AOM 2.0控制台。
AOM”。 - 持续时间 选择“永久”。 永久 描述 可选参数,用于补充说明该委托代理的详细信息。 - 在“权限选择”区域,单击“配置权限”。 配置以下权限: DMS User(或DMS UserAccess),并在“项目[所属区域]”选定生效区域。 单击“确定”,委托关系创建成功。
该功能对非洲-约翰内斯堡、拉美-墨西哥城一、拉美-墨西哥城二、拉美-圣保罗一和拉美-圣地亚哥区域生效。 AOM提供了告警通知功能,您可通过创建通知规则进行详细配置,当AOM自身或外部服务存在异常或可能存在异常而产生告警时,可利用此功能将告警信息通过邮件或短信发送给您指定的人员,以便提醒相关人员及时采取措施清除故障,避免造成业务损失。
参考信息 Agent包下载配置
基础设施监控 通过helm部署pod的yaml文件后,AOM无法检测到工作负载
在“Grafana 数据源配置信息”区域,可以获取当前Prometheus实例下内网或公网的Grafana 数据源配置代码,在右侧单击可复制该代码到对应文件。 在“服务地址”区域,可以获取当前Prometheus实例下内网或公网的Prometheus 配置代码,在右侧单击可复制该代
创建消息模板 AOM提供消息模板功能,可通过创建消息模板自定义配置通知消息,当AOM触发已设定的告警通知策略时,可通过此功能以您自定义消息模板的邮件、短信、企业微信、钉钉、语音、HTTP或HTTPS形式通知指定的人员。如果您未创建任何消息模板,则采用默认消息模板。 创建消息模板 在左侧导航栏中选择“告警
逻辑划分。应用的类型包括系统应用和自定义应用,通过内置发现规则发现的是系统应用,通过自定义规则发现的是自定义应用。 在AOM的应用发现界面配置应用发现规则,可自动发现符合规则的应用并监控相关指标,详情请参考应用发现。 应用监控 登录AOM 2.0控制台。 在左侧导航栏中选择“基础设施监控
参见:创建日志组和日志流,也可以在添加接入规则页面直接创建。 已有集群、命名空间和工作负载,详情请参见:CCE用户指南、CCI用户指南;已配置容器服务日志采集路径。 添加接入规则 将AOM中的CCE、CCI或自定义集群的日志映射至LTS需要进行如下操作步骤: 登录AOM控制台,在左侧导航栏中选择“日志
告警规则 Prometheus监控Alerting Rule格式的告警配置。可以通过PromQL描述。 标签 描述指标的一组Key-Value值。 指标管理 Prometheus监控的功能特点之一,无需静态配置,可以自动发现采集目标。支持Kubernetes SD、Consul、
法满足需要,可在下拉列表中单击“新建分组规则”添加,具体操作请参见创建分组规则。 说明: 所选择告警降噪的分组规则中配置的告警级别、标签等信息需与告警规则中的配置信息匹配,否则分组规则不生效。 通知模板 发送告警通知的模板。通知模板可以使用变量的方式,变量即维度变量,填写方式${
指标项详情页,默认展示“接口调用”详细信息。 单击“基础设施”,切换至基础设施页签,页面展示该组件基础设施指标详情。 需要提前在组件设置中配置组件与基础设施关联分析设置后,页面才会展示基础设施页签。 图1 查看基础设施 在下拉列表中选择您想要查看的APM实例,可以查看该实例下的应用监控数据。
日志分析(旧版) 搜索日志 查看日志文件 配置虚机日志采集路径 添加日志转储 接入LTS 日志流
日志管理 日志管理使用说明 搜索日志 查看日志文件 添加日志桶 查看桶日志 添加日志转储 创建统计规则 接入LTS 容器日志采集配置
API 告警 监控 prometheus监控 日志 Prometheus实例 配置管理 UniAgent管理 应用资源管理(aom2.0接口) 自动化运维(aom2.0接口)
通过告警降噪清除告警风暴 本文档介绍如何为告警规则配置告警降噪功能,在发送告警通知前按告警降噪规则对告警进行处理,处理完成后再发送通知,避免产生告警风暴。 实践场景 某电商运维人员在定位分析应用、资源及业务的实时运行状况时,发现系统上报的告警数量过大,重复性告警过多,需要从众多告警中快速及时发现故障,全面掌握应用。
目前仅default类型、CCE类型、云服务类型、ECS类型、通用实例类型的Prometheus实例支持数据多写功能。 CCE类型的Prometheus中配置的预汇聚规则指标暂不支持数据多写。 AOM汇聚生成的部分默认指标,例如:aom_metrics_total、aom_metrics_tot