检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
(CCE)、云容器实例 (CCI)、云监控 (Cloud Eye)、分布式消息 (DMS)、弹性云服务器 (ECS)云服务数据的访问权限。该权限设置针对整个AOM 2.0服务生效。 前提条件 用户已被授予“AOMFullAccessPolicy ”、“iam:agencies:crea
选框,在弹出框中单击“启用”或“停用”。 批量设置告警通知 选中一个或多个同类型告警规则前的复选框,在弹出框中单击“告警通知”,即可为选中的告警规则批量设置告警通知策略。根据告警规则类型的不同,具体操作请参见设置告警通知策略1或设置告警通知策略2。 搜索告警规则 支持按规则名称等
选择导出TXT格式日志后,本地会以.txt格式保存日志的日志内容。 JSON设置 鼠标悬浮在按钮上,单击“JSON设置”,在弹出的JSON设置页面中,设置格式化显示。默认开启格式化,JSON默认展开层级为2层。 开启格式化按钮:设置JSON默认展开层级,最大设置为10层。 关闭格式化按钮:对于JSON格式的日志,将不会格式化层级显示。
Exporter并配置采集任务,采集到的指标会存储在ECS类型的Prometheus实例中,方便您管理。 配置指标告警规则:通过创建告警规则对ECS的指标设置告警阈值条件,当指标数据满足设置的告警阈值条件时产生告警。 准备工作 购买一台弹性云服务器,详细请参考快速购买和使用Linux ECS。如果您已有可用的弹性云服务器,可重复使用,不需要再次购买。
已设时长,则退出到登录界面。 全屏模式在线时长以最后一次设置为准。 例如,打开了多个页签在多个显示屏下进行全屏监控,则在线时长以最后一次设置为准。 再如,在“运维概览”界面和“仪表盘”界面均设置了在线时长,则以最后一次设置为准。 全屏模式在线时长优先级高于系统在线超时退出机制。
单击“告警”或“事件”页签,查看告警或事件信息。 设置时间范围,查看已设时间范围内产生的告警或事件。您可以使用AOM预定义的时间标签,例如近1小时、近6小时等,也可以自定义时间范围,最长可设置为31天。 设置告警或事件信息的刷新频率。单击,根据需要从下拉列表中选择,例如,手动刷新、1分钟等。 设置搜索条件后,单击
当您完成了安装ICAgent、配置服务发现规则等基本操作后,可以根据自身的业务需求使用应用运维管理提供的一系列常用实践。 表1 常用最佳实践 实践 描述 阈值告警最佳实践(新版) 告警作为AOM应用运维管理中一项基础功能,在日常运维中发挥着重要作用。AOM告警可以对接华为云租户虚机、组件等数十种
登录APM控制台。 在左侧导航栏选择“系统管理 > 访问密钥”。 访问密钥 通用配置 通用配置可以设置Agent字节码方式拦截,慢请求阈值、监控指标数据采集的最大行数以及前端监控聚合设置。 登录AOM 2.0控制台。 在左侧导航栏选择“APM配置 > 通用配置”。 登录APM控制台。
标,可以按如下方案设置: 告警条件a的指标设置为“aom_node_cpu_used_core”,其余参数采用默认设置。该指标用于统计测量对象已经使用的CPU核个数。 告警条件b的指标设置为“aom_node_cpu_limit_core”,其余参数采用默认设置。该指标用于统计测量对象申请的CPU核总量。
仪表盘界面。 选择待操作的仪表盘,在对应“仪表盘”页面右上角单击,进入“变量设置”页面。 单击“新增变量”,参考表1设置相关参数。 表1 新增变量填写说明 参数名称 说明 变量名称 变量的名称。最多可输入255个字符,只能包含数字、字母、下划线,且不能以下划线开头和结尾。 变量类型
选择待操作的仪表盘,在对应“仪表盘”页面右上角单击。 在弹出的对话框中设置全屏模式在线时长。具体的参数说明请参见表1。 图1 设置在线时长 表1 在线时长参数说明 参数名称 说明 设置方式 在线时长的设置方式,包括以下两种: 自定义在线时长:自定义设置固定时长后,自动退出到登录界面。 持续在线:表示不
使用率。趋势图上方的值为最新时间点所选应用的CPU使用率和内存使用率。 告警统计卡片 图3 告警统计 此卡片主要统计展示告警、日志使用量、阈值规则、告警和主机数量趋势图的数据。 组件监控(CPU&内存)卡片 图4 组件监控(CPU&内存)卡片 此卡片主要展示了4种信息: 统计最新
件(>=、<=、>、<)和阈值组成。例如,统计周期为“1分钟”,检测规则设置为“平均值>1”,触发条件为连续周期“3”,告警级别为“紧急”,表示连续三个统计周期,指标的平均值大于已设置的阈值1时,生成紧急告警。 图6 设置告警规则 单击“高级设置”,设置检查频率、告警恢复等信息,具体参数说明请参见表3。
格式的策略内容。 具体创建步骤请参见:创建自定义策略。本章为您介绍常用的AOM自定义策略样例。 AOM自定义策略样例 示例1:授权用户创建阈值规则的权限 { "Version": "1.1", "Statement": [ {
仪表盘中的图表数量 1个仪表盘中最多可添加50个图表。 仪表盘中图表可选资源、阈值规则、组件或主机数量 1个数字图最多可添加12个资源,只能展示1个资源,默认展示第一个资源。 1个阈值状态图表最多可添加10个阈值规则。 1个主机状态图表最多可添加10个主机。 1个组件状态图表最多可添加10个组件。
关机等原因导致的主机异常,或主机产生阈值告警时,主机状态为“异常”。 主机监控 在左侧导航栏中选择“主机监控”,查看主机列表。 为了方便您查看主机列表,您可以: 单击右上角图标对主机列表进行过滤显示,实现隐藏控制节点。 可以在主机列表上方设置过滤条件,实现主机列表过滤显示。 您可根据需要选择是否对主机执行如下操作:
metadata.case[0] 在“正文”区域右上角,单击“添加变量”可添加需要的变量信息。 选择“邮件”方式发送通知时,可单击“预览”查看设置的邮件消息模板效果。在预览界面,可根据需要修改消息主题。 表1 默认消息模板变量说明 变量名称 变量说明 变量定义 账号 登录管理控制台的账号。
说明: 如果告警触发“notify_triggered”或告警恢复“notify_resolved”都设置为false(即都不进行告警通知),则route_group_enable需设置为false。 枚举值: true false route_group_rule String 分组规则名称。
指标、日志和性能数据。 部分支持 只支持指标数据和系统性能数据的可视化监控,不支持日志数据的监控。 支持 告警管理 对服务设置事件条件或者对资源的指标设置阈值条件,当AOM自身或外部服务存在异常或可能存在异常而产生告警时,将告警信息以邮件、短信、企业微信等方式发送给指定的人员。 部分支持
说明: 如果告警触发“notify_triggered”或告警恢复“notify_resolved”都设置为false(即都不进行告警通知),则route_group_enable需设置为false。 枚举值: true false route_group_rule String 分组规则名称。