检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
CE、APM等服务在异常情况或在可能导致异常情况下上报的信息,告警会引起业务异常,您需要对告警进行处理。 事件 事件是指AOM、ServiceStage、CCE、APM等服务发生了某种变化,但不一定会引起业务异常,事件一般用来表达一些重要信息。您不用对事件进行处理。 告警清除 告警清除方式包括自动清除和手动清除两种。
规则名称。最多可输入256个字符,只能包含中文、字母、数字、下划线和中划线,开头、结尾不允许输入特殊字符。 monitor 企业项目 选择业务需要的企业项目,默认为default。 default 描述 规则的描述信息,最多可输入1024个字符。本示例可不填写。 - 设置告警规则的详细信息。
l脚本语言以及单个脚本的多版本管理。 作业管理 将脚本和文件原子操作进行多步骤编排形成作业模板,用于完成特定运维自动化场景操作。例如初始化业务环境。 执行方案 从作业模板中挑选1个或多个步骤组合组成执行方案。是作业模板的实例化对象。 云服务场景 云服务提供的原子化的变更场景。例如重启ECS。
Set Size)。 ≥0 兆字节(MB) 下行Bps(aom_container_network_receive_bytes) 该指标用于统计测试对象的入方向网络流速。 ≥0 字节/秒(Byte/s) 下行Pps(aom_container_network_receive_packets)
信息。 数值列 位置信息对应的数据量。 漏斗图:漏斗图适用于业务流程比较规范、周期长、环节多的单流程单向分析,通过漏斗各环节业务数据的比较能够直观地发现和说明问题所在的环节,进而做出决策。漏斗图用梯形面积表示某个环节业务量与上一个环节之间的差异。 图14 漏斗图 表14 漏斗图图表配置说明
规则名称 规则名称。最多可输入256个字符,只能包含中文、字母、数字、下划线和中划线,开头、结尾不允许输入特殊字符。 Ihn 企业项目 选择业务需要的企业项目,默认为default。 default 描述 规则的描述信息,最多可输入1024个字符。本示例可不填写。 - 设置告警规则的详细信息。
用户自定义ServiceMonitor或PodMonitor配置采集指标并上报指标到AOM,产生相关费用。比如容器场景自定义中间件mysql、nginx、业务指标等。 云服务场景 云服务接入AOM Prometheus实例后,部分云服务产生计费。具体如下: 不计费云服务:Modelarts/IotDA/IEF/CSE。
监控周期内监控对象不满足触发条件时,则恢复告警。默认只监控一个周期,最多可监控5个周期指标数据。 无数据处理 监控周期内无指标数据产生或指标数据不足时系统的处理方式,根据业务需要启动或者关闭。 默认只监控一个周期,最多可监控5个周期指标数据。 系统处理方式包括:告警、数据不足并发送事件、保持上一个状态、正常。 图1
YAML配置示例如下(请直接复制下面的内容,根据实际业务调整相应的参数): apiVersion: apps/v1 kind: Deployment metadata: name: postgres-test # 根据业务需要调整成对应的名称,建议加上 PG 实例的信息 namespace:
“查询状态:结果精确”。 根据SQL查询返回的数据,依照业务需求选择不同图表类型,呈现查询结果。图表类型与配置的详细说明请参见日志数据类图表。 对查询结果可执行以下操作: 单击“新建”,在弹出的“创建可视化图表”中,根据业务需求填写“图表名称”、“可视化对象”,选择需要展示的“图
权限的粗粒度授权机制。该机制以服务为粒度,提供有限的服务相关角色用于授权。由于华为云各服务之间存在业务依赖关系,因此给用户授予角色时,可能需要一并授予依赖的其他角色,才能正确完成业务。角色并不能满足用户对精细化授权的要求,无法完全达到企业对权限最小化的安全管控要求。 策略:IAM
AOM对基础指标的采集,包含VM、容器、进程的CPU、内存等基础指标。 资源消耗:对此类指标采集时,采集器ICAgent对资源的消耗和容器、进程个数相关。 正常业务量情况下,采集器ICAgent消耗内存约30M、单核CPU约3%。 使用限制:单节点上运行容器个数小于1000个。 保护机制: 采集器IC
监控周期内监控对象不满足触发条件时,则恢复告警。默认只监控一个周期,最多可监控5个周期指标数据。 无数据处理 监控周期内无指标数据产生或指标数据不足时系统的处理方式,根据业务需要启动或者关闭。 默认只监控一个周期,最多可监控5个周期指标数据。 系统处理方式包括:告警、数据不足并发送事件、保持上一个状态、正常。 图1
例如,设置连续周期为“2”,则表示连续2个周期不满足告警条件,恢复告警。 无数据处理 监控周期内无指标数据产生或指标数据不足时系统的处理方式,根据业务需要开启或者关闭。默认只监控一个周期,最多可监控5个连续周期指标数据。 系统处理方式包括:超限阈值并发送告警、数据不足并发送事件、保持上一个状态、正常并发送清除告警。
例如,设置连续周期为“2”,则表示连续2个周期不满足告警条件,恢复告警。 无数据处理 监控周期内无指标数据产生或指标数据不足时系统的处理方式,根据业务需要开启或者关闭。默认只监控一个周期,最多可监控5个连续周期指标数据。在告警规则详情中选择“满足全部条件触发”的计算方式时,不支持使用无数据处理功能。
当前主流的日志组件例如Log4j、Logback等均已经具备日志文件的绕接能力,如果您的日志文件已经实现了绕接能力,则无需设置。否则可能出现冲突。 建议您的业务自己实现绕接,可以更灵活的控制绕接文件的大小和个数。 容器路径:日志仅输出到容器路径,无需挂载主机路径。日志策略配置参数如下: 此功能需要采集器ICAgent版本升级到5
MN),将阈值规则状态变更信息和告警信息以邮件或短信的方式发送给相关人员,以便及时获取资源运行状态等信息并采取相应措施,避免因资源问题造成业务损失。SMN-价格说明 日志转储:依赖对象存储服务(简称OBS),将日志文件转储到OBS桶中,以便进行长期存储。OBS-价格说明 日志订阅
范围内不存在相关数据,AOM会自动跳转到“组件监控”的主操作界面。 在“实例列表”页签,可查看该组件所有实例的概况。 单击实例名称,可监控业务进程或组件pod的资源占用与健康状态。 在“主机列表”页签,可查看该组件所在的主机概况。 在“告警分析”页签,可查看该组件的告警情况。 单
服务韧性 AOM服务提供了多种可靠性容灾能力,可以通过AZ内实例容灾、多AZ容灾、多集群容灾、数据多副本等技术方案,保障服务的持久性和可靠性。 表1 AOM服务可靠性架构 可靠性方案 简要说明 AZ内实例容灾 单AZ内,AOM实例通过多实例方式实现实例容灾,快速剔除故障节点,保障实例持续提供服务。
服务韧性 AOM服务提供了多种可靠性容灾能力,可以通过AZ内实例容灾、多AZ容灾、多集群容灾、数据多副本等技术方案,保障服务的持久性和可靠性。 表1 AOM服务可靠性架构 可靠性方案 简要说明 AZ内实例容灾 单AZ内,AOM实例通过多实例方式实现实例容灾,快速剔除故障节点,保障实例持续提供服务。