正在生成
详细信息:
检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
集群监控 集群监控的对象为通过CCE部署的集群。“集群监控”页面可实时监控集群的多项基础监控指标(例如集群状态、CPU使用率、内存使用率、节点运行状态等)和相关的告警、事件数据,通过这些指标和相关的告警信息,用户可实时了解集群的运行状况,及时处理潜在风险,保障集群稳定运行。 注意事项
点故障发生时,抑制节点上的进程或者容器的所有其他告警。 注意事项 若在发送告警通知之前抑制条件对应的源告警已恢复正常,则抑制规则失效,抑制对象(被源告警抑制的告警)将正常发送告警通知。 用户最多可创建100条抑制规则。 操作步骤 登录AOM 2.0控制台。 在左侧导航栏中选择“告警管理
概述 Debugging诊断可协助用户分析线程状况,获取方法及对象实时参数。方便开发人员从实时的远程应用程序中获取调试信息,而无需重新启动应用程序,也不会阻止它并导致服务停机。 使用限制 为了应用运行稳定,强烈建议您按照要求升级JDK版本,在低版本的JDK上使用Debugging诊断功能,存在应用崩溃的风险。
策略和授权项说明 如果您需要对您所拥有的AOM进行精细的权限管理,您可以使用统一身份认证服务(Identity and Access Management,简称IAM),如果华为账号所具备的权限功能已经能满足您的要求,您可以跳过本章节,不影响您使用AOM服务的其它功能。 默认情况
设置告警规则的详细信息。 设置“规则类型”为“事件类告警”。 设置告警来源、触发对象和触发策略。 表1 告警规则填写说明 参数名称 填写说明 告警来源 事件类告警来源的服务名称,从现有的服务列表中选择。 触发对象 服务事件的筛选条件。从通知类型、事件名称、告警级别、自定义属性、命名空间
简介 指标是对资源性能的数据描述或状态描述,指标由命名空间、维度、指标名称和单位组成。 指标命名空间 指标命名空间是对一组资源和对象产生的指标的抽象整合,不同命名空间中的指标彼此独立,因此来自不同应用程序的指标不会被错误地汇聚到相同的统计信息中。 系统指标的命名空间:命名空间是固定不变的,均以“PAAS
储。 将存储在OBS中的日志文件下载到本地,以供定位问题使用。 在周期性转储列表中,单击待操作的OBS桶名称,进入OBS服务的“对象”页面。 在“对象”页签下,找到存储在OBS中的日志文件,例如,192.168.0.74_var-paas-sys-log-apm-count_warn
或者到组织追踪器配置的OBS桶中查看,也可以到组织追踪器配置的CTS/system日志流下面去查看。 用户通过云审计控制台只能查询最近7天的操作记录。如果需要查询超过7天的操作记录,您必须配置转储到对象存储服务(OBS)或云日志服务(LTS),才可在OBS桶或LTS日志组里面查看
范围、聚合维度以及对比类型,可以查看该实例对应的性能分析数据,详细参数说明请参见表1 对比参数说明。 您还可以根据需要执行以下操作: 对比对象:和分别支持不同实例,或相同实例不同时间段。 设置时间范围,查看已设时间范围内的数据。可通过如下两种方式设置时间范围: 方式一:使用AOM
支持按规则名称等信息搜索,可在右上角的搜索框中输入关键字,单击后显示匹配对象。 查看告警规则详细信息 单击规则名称前的,可查看该告警规则的详细信息,包括每个规则的基本信息、告警条件等。指标告警规则还可查看监控对象及触发的告警列表信息。 查看告警 在已设的连续周期内,当某个资源的指标数据满足阈值条件时,产生一条阈值告警。
入门实践 当您完成了应用管理、容器管理等基本操作后,可以根据自身的业务需求使用应用运维管理提供的一系列常用实践。 表1 常用最佳实践 实践 描述 通过告警降噪清除告警风暴 该实践介绍如何为告警规则配置告警降噪功能,在发送告警通知前按告警降噪规则对告警进行处理,处理完成后再发送通知,避免产生告警风暴。
设置“事件名称”作为筛选条件,未选择具体的事件名称时,系统默认按选择全部事件处理。 告警条件 事件类告警的触发条件。包含以下信息: 事件名称:根据“监控对象”设置的事件名称显示。如果在“监控对象”中未选择具体的事件名称,则此处显示为全部事件且不可选。 触发方式:事件类告警的触发方式。 累计触发:某个监控周期内达到
单击“立即创建”,完成创建。创建完成后,单击“返回告警规则列表”可查看已创建的告警规则。 如图10所示,单击规则名称前的,可查看该告警规则的详细信息。 在展开的列表中,只要监控对象满足设置的告警条件时,在告警界面就会生成一条指标类告警,您可在左侧导航栏中选择“告警管理 > 告警列表”,在告警列表中查看该告警。只要某个
在列表中,可查看ID、AccessCode、状态、创建时间等信息。 搜索AccessCode 在搜索框中输入AccessCode的ID,单击后显示匹配对象。 删除AccessCode 单击“操作”列的“删除”。 刷新AccessCode 单击,可实时获取到AccessCode的最新信息。 父主题:
约束与限制 应用资源管理使用限制 表1 应用资源管理使用限制 对象 使用限制 应用 租户创建的应用个数<=1000。 子应用 应用下创建的子应用数量<=50。 组件 子应用下的创建的组件数量<=50。 环境 组件下可创建的环境数量<=20。 资源 单个环境管理的同类实例资源数量<=2000。
单击“操作”列的“编辑”。 删除账号 单击“操作”列的“删除”。 搜索账号 默认按照账号名称搜索。在列表上方的搜索框中输入关键字,单击后在下面任务列表显示匹配对象。 隐藏/显示账号列表的列信息 单击,根据需要勾选/取消勾选对应列,可在账号列表中显示/隐藏该列。 刷新账号列表 单击,可以刷新账号列表。
控指标覆盖广,涵盖容器、云服务、中间件、数据库、应用以及业务等多种监控数据。本文介绍Prometheus 监控支持的主要功能。 表1 监控对象接入 功能 功能说明 创建Prometheus实例 支持创建多种类型的Prometheus实例。您可以根据需求选择创建任一类型的Prometheus实例。
删除一个或多个静态阈值模板:选中一个或多个静态阈值模板前的复选框,单击页面上方的“删除”。 搜索静态阈值模板 在右上角的搜索框中输入模板名称关键字,单击后显示匹配对象。 父主题: 告警规则(新版)
提供批量磁盘清理、作业编排、脚本执行等功能,将日常运维操作服务化、标准化、自动化。 应用资源管理 通过应用管理、资源搜索等功能,将所有资源对象与应用统一管理,为AOM上层运维场景服务提供准确、及时、一致的资源配置数据。 采集管理 统一管理插件,并为AOM提供指令下发功能,如脚本下发和执行。
单击“添加”,完成创建。如下图所示,创建了多个单条阈值规则,一个资源对应一个规则,可使用独立的规则对某个资源进行监控。 如下图所示,对于一个单条阈值规则,其监控对象为某个主机,当主机的CPU使用率超过85%时,在告警界面产生阈值告警,可在左侧导航栏中选择“告警> 告警列表”,在告警列表中查看该告警;当