检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
通过AOM告警分组规则清除ELB告警风暴 本文档介绍如何为告警规则配置告警降噪功能,在发送告警通知前按告警降噪规则对告警进行处理,处理完成后再发送通知,避免产生告警风暴。 应用场景 某电商运维人员在定位分析应用、资源及业务的实时运行状况时,发现系统上报的告警数量过大,重复性告警过多
磁盘分区指标 当主机类型为“CCE”时,可以查看磁盘分区指标,支持的系统为:CentOS 7.6版本、EulerOS 2.5。 以root用户登录CCE节点,执行docker info | grep 'Storage Driver'命令查看docker存储驱动类型。如果执行结果为“
产品功能 应用监控 应用监控是针对资源和应用的监控,通过应用监控您可以及时了解应用的资源使用情况、趋势和告警,使用这些信息,您可以快速响应,保证应用流畅运行。 应用监控是逐层下钻设计,层次关系为:应用列表->应用详情->组件详情->实例详情->进程详情。即在应用监控中,将应用、组件
约束与限制 应用资源管理使用限制 表1 应用资源管理使用限制 限制项 说明 应用数量 租户创建的应用个数最多不超过1000。 子应用数量 应用下创建的子应用数量最多不超过50。 组件数量 子应用下的创建的组件数量最多不超过50。 环境数量 组件下可创建的环境数量最多不超过20。 资源数量
与其他服务的关系 AOM可与消息通知服务、分布式消息服务、云审计等服务配合使用。例如,通过消息通知服务您可将AOM的告警规则状态变更信息通过短信或电子邮件的方式发送给相关人员。同时AOM对接了虚拟私有云、弹性负载均衡等中间件服务,通过AOM您可对这些中间件服务进行监控。AOM还对接了云容器引擎
查看组件性能指标 您可以在组件列表查看各组件的性能指标。例如:url调用次数、url平均响应时间、url错误率、mysql错误率等。您还可以在组件详情页面查看拓扑、接口调用、基础监控等性能监控项信息。 查看组件性能指标 登录AOM 2.0控制台。 在左侧导航栏选择“应用监控 > 组件列表
快速管理应用 本章节介绍在“总览”页面的应用视角下,如何通过AOM快速管理应用,包括应用创建到发现、监控等操作。主要操作如下: 创建应用:通过CMDB创建应用和资源关系树,在应用所在主机安装采集器。 配置告警:创建指标告警规则,应用异常时发送通知。 配置告警行动规则:配置告警处理策略
关联资源 为组件创建对应环境后,即可为环境关联相关资源实例,后续可通过应用监控功能实时监控资源的使用情况。 查看资源列表 登录AOM 2.0控制台。 在左侧导航栏选择“应用洞察(日落) > 应用资源管理”,进入“应用资源管理”界面。 选择企业项目并在左侧导航栏中选择“应用管理”。
监控云容器引擎 CCE的指标 云容器引擎 CCE是一个企业级的集群托管服务,基于云服务器快速构建高可靠的容器集群,帮助您轻松创建和管理多样化的容器工作负载。应用运维管理(Application Operations Management,简称AOM)是云上应用的一站式立体化运维管理平台
什么是应用运维管理 运维遇到挑战 随着容器技术的普及,越来越多的企业通过微服务框架开发应用,业务实现更多使用云上服务,运维也转向云上的运维服务。对于云上应用的运维也提出了新的挑战。 图1 运维现有问题 运维人员技能要求高,配置繁杂,同时需要维护多套系统。对于分布式追踪系统,学习和使用成本高
与其他服务的关系 AOM可与消息通知服务、分布式消息服务、云审计等服务配合使用。例如,通过消息通知服务您可将AOM的阈值规则状态变更信息通过短信或电子邮件的方式发送给相关人员。同时AOM对接了虚拟私有云、弹性负载均衡等中间件服务,通过AOM您可对这些中间件服务进行监控。AOM还对接了云容器引擎
监控 “√”表示支持,“x”表示暂不支持。 表1 监控 权限 对应API接口 授权项 IAM项目(Project) 企业项目(Enterprise Project) 查询时间序列 POST /v2/{project_id}/series aom:metric:list √ × 查询时序数据
查看单个策略 功能说明 该接口用于查询指定项目下单个策略的详细信息。 URI GET /v1/{project_id}/pe/policy/{policy_id} 参数说明请参见表1。 表1 参数说明 参数名称 是否必选 描述 project_id 是 项目ID policy_id
基础指标:Modelarts指标 介绍Modelarts通过Agent上报到AOM的指标。 表1 Modelarts通过Agent上报到AOM的指标 指标类别 指标 指标名称 指标含义 取值范围 单位 CPU ma_container_cpu_util CPU使用率 该指标用于统计测量对象的
查看策略列表 功能说明 该接口用于查询指定项目下所有策略的详细信息。 URI GET /v1/{project_id}/pe/policy 参数说明请参见表1。 表1 参数说明 参数名称 是否必选 描述 project_id 是 项目ID 请求消息 请求消息头 无 请求参数 无 请求示例
通过Profiler分析代码性能 Profiler性能分析支持自动获取应用程序运行过程中的CPU、内存、时延的使用情况。通过火焰图实时展示每一个方法的调用关系和执行率,帮助用户优化代码性能。 约束与限制 Profiler性能分析,仅针对白名单用户开放,如有需求可以通过提交工单,联系工程师为您开放此功能
通过全局拓扑图查看应用间调用关系 拓扑图的每根线条代表服务之间一段时间的调用关系,可以是从调用方统计,也可以是从被调用方统计。通过拓扑图线条,可以查看该调用关系的趋势图;同时拓扑图也会展示中间件的调用关系。通过拓扑图,一方面可以自动梳理服务之间的调用关系,同时也可以从全局视角查看服务之间调用是否正常
云服务监控 云服务监控页面以曲线图、数字图等形式直观展示华为云各服务实例的运行状态、各个指标的使用情况等信息。 约束与限制 如需使用“云服务监控”功能,需提前在“菜单开关”中开启云服务监控的开关,详细操作请参见菜单开关。 功能介绍 当前支持如下云服务的监控: 表1 云服务监控 类别
Prometheus实例 for 多账号聚合实例 多账号聚合Prometheus实例类型,提供对同一组织下多个成员账号的云服务指标监控。 前提条件 已在组织控制台界面启用AOM 可信服务,具体操作请参见启用、禁用可信服务。 同一组织下多个成员账号均已接入云服务指标。 创建多账号聚合
查看事件 事件告诉您AOM自身或外部服务发生了某种变化,但不一定会引起业务异常,事件一般用来表达一些重要信息。您不用对事件进行处理。 查看事件 在左侧导航栏中选择“告警 > 事件列表”。 在“事件列表”页面中查看事件。 设置时间范围,查看已设时间范围内产生的事件。可通过如下两种方式设置时间范围