检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
UniAgent和ICAgent安装类常见问题 UniAgent安装机和目标机器网络不通,报错提示“[warn] ssh connect failed, 1.2.1.2:22”如何解决? 答:安装之前先在安装页面单击连接测试,选择网络能通的安装机。 UniAgent安装成功后,后续的心跳和注册都失败
产品功能 应用监控 应用监控是针对资源和应用的监控,通过应用监控您可以及时了解应用的资源使用情况、趋势和告警,使用这些信息,您可以快速响应,保证应用流畅运行。 应用监控是逐层下钻设计,层次关系为:应用列表->应用详情->组件详情->实例详情->进程详情。即在应用监控中,将应用、组件
接入AOM总览 AOM提供多场景、多层次、多维度指标与日志数据的监控能力,通过旧版接入中心快速接入需要监控的指标和日志,接入完成后,即可方便地在“指标浏览”页面查看相关资源或应用的运行状态、各个指标的使用情况、接入的日志等信息。 约束与限制 如果您进入的是新版接入中心,需要单击“接入中心
中间件接入AOM总览 AOM作为华为云服务可观测性分析统一入口,提供接入中心,支持MySQL、Redis、Kafka等自建中间件指标接入AOM,并查看自建中间件日志接入LTS相关操作文档。 配置中间件接入AOM 登录AOM 2.0控制台。 在左侧导航栏中选择“接入 > 接入中心”,
如何设置全屏模式在线时长? 为保障客户信息的安全性,AOM提供了在线超时退出机制,即:登录控制台后,打开任意一个界面,如果在1小时内无任何操作,则会自动退出到登录界面。 当在使用AOM的全屏模式(包括运维概览全屏模式和仪表盘全屏模式)进行监控时,全屏模式会随着用户账号的退出而退出,
ICAgent版本说明 表1 ICAgent版本说明 版本号 说明 5.12.135 解决CPU使用率为0的问题 解决CCE1.23版本集群containerd节点容器网络指标缺失问题 支持采集EulerOS 2.5系统的磁盘分区指标 5.12.133 容器的标准输出日志支持多行采集
监控概览 “监控概览”界面提供了资源、应用、应用用户体验的全链路、多层次、一站式运维界面。分别展示了基础设施监控、应用监控、告警统计、主机监控(CPU&内存)、组件监控(CPU&内存)、容器实例监控(CPU&内存)、主机监控(磁盘)、主机监控(网络)、集群监控(CPU&内存)和集群监控
创建事件类告警规则 通过事件类告警规则可对服务设置事件条件,当服务发生了某种变化,资源数据满足事件条件时产生事件类告警。 注意事项 当服务的资源数据满足事件条件时,如需使用邮件或短信等方式发送通知,请参考“创建告警行动规则”设置告警行动规则。 操作步骤 登录AOM控制台,在左侧导航栏中选择
AOM告警监控概述 AOM提供告警监控能力。告警是指AOM自身或外部服务在异常情况、可能导致异常情况下上报的信息,需要您采取相应措施清除故障,否则会由于AOM自身或外部服务的功能异常而引起业务的异常。事件是指AOM自身或外部服务发生了某种变化,但不一定会引起业务异常情况下上报的信息
管理AccessCode AccessCode是调用API的身份凭据。通过创建AccessCode可为当前用户配置API服务的调用权限。该权限设置针对整个AOM 2.0服务生效。 约束与限制 每个用户最多可创建2个AccessCode。 AccessCode删除后将无法恢复,请谨慎操作
查看组件性能指标 您可以在组件列表查看各组件的性能指标。例如:url调用次数、url平均响应时间、url错误率、mysql错误率等。您还可以在组件详情页面查看拓扑、接口调用、基础监控等性能监控项信息。 查看组件性能指标 登录AOM 2.0控制台。 在左侧导航栏选择“应用监控 > 组件列表
批量创建AOM云服务告警规则 告警模板是一组以云服务为单位的告警规则组合,通过告警模板用户可对同一个云服务下的多个指标批量创建阈值告警规则、事件告警规则和PromQL告警规则。 约束与限制 您最多可创建150个告警模板,如果告警模板数量已达到150个,请删除不需要的告警模板后重新创建
资源监控 表1 资源监控基本概念 术语 说明 指标 指标是对资源性能的数据描述或状态描述,指标由命名空间、维度、指标名称和单位组成。 其中,命名空间特指指标的命名空间,可将其理解为存放指标的容器,不同命名空间中的指标彼此独立,因此来自不同应用程序的指标不会被错误地聚合到相同的统计信息中
使用前必读 欢迎使用应用运维管理服务(Application Operations Management,简称AOM)。应用运维管理(Application Operations Management,简称AOM)是云上应用的一站式立体化运维管理平台,提供一站式可观测性分析和自动化运维方案
Consul指标接入AOM 您可以直接使用AOM提供的Consul Exporter插件给主机创建采集任务,并安装Consul Exporter插件,就可以监控Consul相关指标。 前提条件 主机已安装UniAgent,且状态为运行中。 已创建ECS Prometheus实例。
AOM告警降噪概述 AOM提供告警降噪功能,您可以在发送告警通知前按告警降噪规则对告警进行处理,处理完成后再发送通知,避免产生告警风暴。 功能说明 告警降噪功能分为分组、去重、抑制、静默四部分。 去重为内置策略,服务后台会自动检验告警内容是否一致实现去重的效果,用户无需手动创建规则
自动化运维 表1 自动化运维基本概念 术语 说明 脚本管理 支持Shell、Python、Bat、Powershell脚本语言以及单个脚本的多版本管理。 作业管理 将脚本和文件原子操作进行多步骤编排形成作业模板,用于完成特定运维自动化场景操作。例如初始化业务环境。 执行方案 从作业模板中挑选
快速管理应用 本章节介绍在“总览”页面的应用视角下,如何通过AOM快速管理应用,包括应用创建到发现、监控等操作。主要操作如下: 创建应用:通过CMDB创建应用和资源关系树,在应用所在主机安装采集器。 配置告警:创建指标告警规则,应用异常时发送通知。 配置告警行动规则:配置告警处理策略
通过多账号聚合Prometheus实例实现指标数据统一监控 本文档介绍通过配置统一监控告警,同时监控不同账号下的指标数据。 应用场景 某电商平台运维人员在监控指标时,只能实时监控一个账号下的指标数据,无法同时监控其他账号。 解决方案 AOM通过Prometheus监控功能,创建多账号聚合实例
云审计服务支持的AOM操作列表 AOM为运维人员提供一站式立体运维平台,实时监控应用、资源运行状态,通过数十种指标、告警与日志关联分析,快速锁定问题根源,保障业务顺畅运行。 AOM作为应用运维环境的多层次一站式运维监控平台,可以实现对云主机、 存储、网络、WEB容器、docker、