云服务器内容精选

  • 概述 阈值告警相关概念: 告警规则:告警规则由告警规则名称,告警规则描述,规则绑定集群列表,告警策略触发关系,告警策略项构成。一条告警规则可绑定某个指定集群或所有集群,拥有一个或多个告警策略。其中,告警策略之间组合关系由“策略触发关系”选项描述。告警规则的阈值触发和抑制条件由每条告警策略描述。 告警策略:为某个告警指标指定的触发条件,抑制条件,告警级别的组合称为告警策略。 告警指标:数据库集群的某个指标项,一般是一个时间序列数据,例如:节点CPU使用率,查询触发下盘量等。 告警规则分类: 默认规则: GaussDB (DWS)阈值告警模块的最佳实践。 自定义规则:用户可自由选择或组合监控指标形成个性化的告警规则。目前版本仅支持用户自定义schema使用率告警规则。 告警规则操作: 修改:修改告警规则的选项。所有告警规则都可以修改编辑,但默认告警规则只能修改部分选项,而自定义告警规则可以修改全部选项。 启用/停用:启用或停用告警规则。所有的告警规则都可以启用/停用,启用后告警规则会被告警引擎纳入检查列表,可以正常触发。停用后的告警规则将被告警引擎移出检查列表,不会触发该规则检查。 删除:删除告警规则。只有自定义告警规则可以被删除,用户无法删除默认告警规则。
  • 告警和事件关系说明 本部分介绍告警和事件的含义、区别,告警转事件的原因和告警关联事件的原因。 告警和事件的含义与区别 表1 告警和事件的含义与区别 类别 描述 定义 告警: 告警是运维中的一种异常信号的通知,通常是由监控系统或安全设备在检测到系统或网络中的异常情况时自动生成的。例如,当服务器的CPU使用率超过90%时,系统可能会发出告警。这些异常情况可能包括系统故障、安全威胁或性能瓶颈等。 告警通常有明确的指示性,能够明确指出异常发生的位置、类型和影响。同时,告警可以按照严重程度来进行分类,如紧急、重要、一般等,以便运维人员根据告警的严重程度来决定哪些需要优先处理。 告警的目的是及时通知相关人员,以便他们能够迅速响应并采取措施解决问题。 事件: 事件是一个更广泛的概念,可以包括告警,但不限于此。事件可以是系统正常操作的一部分,也可以是异常或错误。在运维和安全领域,事件通常指的是已经发生并需要被关注、调查和处理的问题或故障。事件可能由一条或多条告警触发,也可能由其他因素(如用户操作、系统日志等)引发。 事件的目的更广泛,可以是为了记录、分析、报告或审计,通常用于记录和报告系统的历史行为,以便于分析和审计。 处理流程 告警: 告警的处理流程通常包括接收、确认、分析、响应和关闭等步骤。当监控系统发出告警时,运维人员首先需要确认告警的真实性,然后分析告警的原因和影响范围,最后采取相应的措施来解决问题,并关闭告警。 事件: 事件的处理流程则更加复杂和全面。除了包含告警处理流程中的各个环节外,事件处理还需要进行事件调查、影响评估、风险分析、制定应急计划、执行应急响应、事后总结等步骤。事件处理的目标是彻底解决问题,防止类似事件再次发生,并减少事件对业务的影响。 重要性与紧急程度 告警: 告警一般需要立即评估和响应。 每条告警的紧急程度和重要性各不相同,取决于告警的类型、级别和影响的范围。一些告警可能只是简单的提醒或预警,而另一些告警则可能表示系统已经遭受严重攻击或面临重大故障风险。 事件: 事件可能需要记录、分析或在某些情况下采取行动,但不一定需要立即响应。 事件通常比告警具有更高的重要性和紧急程度。因为事件已经发生并产生了实际的影响,需要立即采取措施来应对和解决问题。如果事件得不到及时处理,可能会给组织带来重大的经济损失或声誉损害。 告警转事件或关联事件的原因 告警通常是在系统或服务出现异常或潜在故障时产生的通知。这些异常可能会直接影响业务的正常运行,因此告警需要被及时处理,以防止业务异常。告警通常需要采取相应的措施来清除故障,否则可能会因为这些异常或故障引起业务的异常。 事件则是在系统或服务在正常运行状态下产生的通知,它可能涉及到一些重要的状态变化,但不一定会引起业务异常。因此,事件一般不需要进行处理,主要用于帮助分析、定位问题。 表2 告警转事件或关联事件的原因 类别 说明 告警转事件原因 当告警的严重性达到一定程度,或者持续出现,或者其影响范围广泛时,它可能不再仅仅是一个需要关注的信号,也可能表明系统或网络中存在一个持续性的问题,此时,它已经演变成了一个需要立即处理的事件,这种情况下,可以将告警转化为事件来处理,以便深入调查问题的根源,并采取相应的措施来彻底解决。通常告警转事件的原因有以下几个方面: 信息聚合与分类 告警通常是对某个特定条件或阈值被违反的即时响应。随着时间的推移,大量的告警可能会被触发,如果直接处理这些独立的告警,可能会变得非常混乱和低效。将这些告警聚合成事件,可以帮助相关人员根据告警的类型、来源、影响等维度进行分类,从而更有效地处理它们。 简化工作流程 告警到事件的转换过程,通常伴随着对告警的过滤、去重、聚合等处理。这些处理使得原本可能触发多个相似告警的情况,被整合为一个更具代表性的事件。这样不仅减少了处理单个告警的工作量,也使得处理过程更加条理清晰,便于跟踪和记录。 提升问题解决效率 将告警转换为事件后,由于事件通常提供了比单个告警更全面的上下文信息,因此相关人员可以更容易地识别出问题的根本原因,有助于更快地定位问题,并采取有效的解决措施。 便于历史回顾与趋势分析 事件记录了问题的发生、发展、解决的全过程,这为后续的问题预防、系统优化等提供了宝贵的历史数据。通过对事件进行趋势分析,可以发现系统中潜在的薄弱环节,提前采取措施进行改进。 增强跨部门协作 在大型组织中,不同的部门可能需要共同参与问题的处理。将告警转换为事件后,可以更容易地在不同部门之间共享相关信息,促进跨部门协作,提高问题解决的效率。 总而言之,将告警转换为事件助于简化工作流程、提升问题解决效率、便于历史回顾与趋势分析。 告警关联事件原因 告警关联事件是监控和故障管理中的一个重要环节,它涉及到将多个独立但可能相互关联的事件或告警组合起来,以便更好地理解问题的根源和范围,从而更有效地进行故障排查和响应。通常告警关联事件的原因有以下几个方面: 依赖关系 在复杂的系统中,各个组件之间往往存在复杂的依赖关系。当一个组件出现故障时,可能会影响依赖它的其他组件的正常工作,进而引发一系列告警。例如,在微服务架构中,一个服务的崩溃可能导致调用该服务的其他服务也出现问题。 资源共享 当多个系统或服务共享同一资源(如服务器、数据库、网络设备等)时,该资源的问题可能导致多个系统或服务同时发出告警。例如,共享数据库服务器的性能下降可能会触发多个依赖该数据库的应用程序的性能告警。 连锁反应 某些情况下,一个初始的故障可能触发一系列连锁反应,导致更多的组件或系统受到影响。这种连锁反应可能由于系统设计不当、错误处理机制不完善或资源限制(如内存泄漏导致的性能下降)等原因引起。 配置错误 配置错误或不一致的配置可能导致系统行为异常,进而触发多个看似不相关的告警。例如,错误的路由配置可能导致流量被错误地路由到不稳定的服务器,从而引发多个与性能相关的告警。 软件缺陷 软件中的缺陷(如bug)可能导致程序在特定条件下表现异常,并触发告警。如果这些缺陷影响了多个组件或系统,则可能引发多个关联告警。 外部因素 外部因素如自然灾害(如地震、洪水)、网络攻击、基础设施故障(如电力中断、网络中断)等也可能导致多个系统或组件同时出现问题,并触发大量告警。
  • 前提条件 云数据库RDS正常运行。 故障、删除状态的云数据库RDS,无法在 云监控 中查看其监控指标。当云数据库RDS再次启动或恢复后,即可正常查看。 故障24小时及以上的云数据库RDS,云监控将默认该云数据库RDS不存在,并在监控列表中删除,不再对其进行监控,但告警规则需要用户手动清理。 云数据库RDS已正常运行一段时间(约10分钟)。 对于新创建的云数据库RDS,需要等待一段时间,才能查看上报的监控数据和监控视图。
  • 排口排水识别 输出JSON数据流到指定的WebHook通道,包括结构化数据。 结果示例: { "task_id": "task7qe4sbmo", "stream_id": "123456", "timestamp": 1569418161, "event_type": 34013185, "message_id": "7BA3A6AE-DF98-11E9-A00A-34B354BC6688", "drainage_state": False, "image_base64": "base64", } JSON格式说明 字段 类型 说明 task_id String IVA下发视觉作业ID stream_id String 输入VCN的摄像头ID timestamp Int 事件发生的时间戳,秒 event_type Int 描述边缘排口排水读数识别算法服务内容,固定值为34013185 message_id String 事件ID,唯一字符串。 drainage_state Bool 当前排口状态,取值范围: True: 表示正在排水 False: 表示未在排水 image_base64 String 当前产生事件时,对应视频帧的图片Base64编码结果。 父主题: 告警信息
  • 维度 Key Value kafka_instance_id Kafka实例 kafka_broker Kafka实例节点 kafka_topics Kafka实例主题 kafka_partitions Kafka实例分区 kafka_groups-partitions Kafka实例分区的消费组 kafka_groups_topics Kafka实例队列的消费组 kafka_groups Kafka实例的消费组 connector_task Kafka实例的Smart Connect任务
  • Smart Connect监控指标 表5 Smart Connect支持的监控指标 指标ID 指标名称 指标含义 取值范围 测量对象 监控周期(原始指标) kafka_wait_synchronize_data 待同步Kafka数据量 Kafka任务的待同步数据量。 单位:Count ≥ 0 Kafka实例的Smart Connect任务 1分钟 kafka_synchronize_rate Kafka每分钟同步数据量 Kafka任务每分钟同步的数据量。 单位:Count ≥ 0 Kafka实例的Smart Connect任务 1分钟 task_status 任务状态 当前任务状态。 0:任务异常 1:任务正常 Kafka实例的Smart Connect任务 1分钟 message_delay 消息时延 消息到达源端的时间与到达目标端的时间之差。 单位:ms ≥ 0 Kafka实例的Smart Connect任务 1分钟 Kafka双向数据复制的Smart Connect任务在监控中会被拆分为2个任务,分别为“Smart Connect任务名_source_0”和“Smart Connect任务名_source_1”。 如果Topic中的消息在进行下一次数据同步前,已经全部老化,此时实际是没有待同步的Kafka数据,但是Kafka数据同步监控指标使用的是包含老化数据的offset值,“待同步Kafka数据量”会显示老化的消息数。
  • 消费组监控指标 表4 消费组支持的监控指标 指标ID 指标名称 指标含义 取值范围 测量对象 监控周期(原始指标) messages_consumed 分区已消费消息数 该指标用于统计当前消费组已经消费的消息个数。 单位:Count 说明: 在“消费组”页签,“主题”为指定的Topic名称,“监控类型”为“分区监控”时,才包含该指标。 ≥ 0 Kafka实例的消费组 1分钟 messages_remained 分区可消费消息数 该指标用于统计消费组可消费的消息个数。 单位:Count 说明: 在“消费组”页签,“主题”为指定的Topic名称,“监控类型”为“分区监控”时,才包含该指标。 ≥ 0 Kafka实例的消费组 1分钟 topic_messages_remained 队列可消费消息数 该指标用于统计消费组指定队列可以消费的消息个数。 单位:个 说明: 在“消费组”页签,“主题”为指定的Topic名称,“监控类型”为“基本监控”时,才包含该指标。 0~(263-1) Kafka实例的消费组 1分钟 topic_messages_consumed 队列已消费消息数 该指标用于统计消费组指定队列当前已经消费的消息数。 单位:个 说明: 在“消费组”页签,“主题”为指定的Topic名称,“监控类型”为“基本监控”时,才包含该指标。 0~(263-1) Kafka实例的消费组 1分钟 consumer_messages_remained 消息堆积数(消费组可消费消息数) 该指标用于统计消费组剩余可以消费的消息个数。 单位:个 说明: 在“消费组”页签,“主题”为“全部队列”时,才包含该指标。 0~(263-1) Kafka实例的消费组 1分钟 consumer_messages_consumed 消费组已消费消息数 该指标用于统计消费组当前已经消费的消息数。 单位:个 说明: 在“消费组”页签,“主题”为“全部队列”时,才包含该指标。 0~(263-1) Kafka实例的消费组 1分钟 messages_consumed_per_min 分区消费速率 统计消费组指定队列分区每分钟的消费数。 单位:个/分钟 说明: 在“消费组”页签,“主题”为指定的Topic名称,“监控类型”为“分区监控”时,才包含该指标。 部分存量实例不支持此监控,具体以控制台为准。 0~30000000 Kafka实例的消费组 1分钟 topic_messages_consumed_per_min 队列消费速率 统计消费组指定队列每分钟的消费数。 单位:个/分钟 说明: 在“消费组”页签,“主题”为指定的Topic名称,“监控类型”为“基本监控”时,才包含该指标。 部分存量实例不支持此监控,具体以控制台为准。 0~30000000 Kafka实例的消费组 1分钟 consumer_messages_consumed_per_min 消费组消费速率 统计消费组每分钟的消费数。 单位:个/分钟 说明: 在“消费组”页签,“主题”为“全部Topic”时,才包含该指标。 部分存量实例不支持此监控,具体以控制台为准。 0~30000000 Kafka实例的消费组 1分钟
  • 主题监控指标 表3 主题支持的监控指标 指标ID 指标名称 指标含义 取值范围 测量对象 监控周期(原始指标) topic_bytes_in_rate 生产流量 该指标用于统计每秒生产的字节数。 单位:Byte/s、KB/s、MB/s、GB/s 说明: 在“主题”页签,当“监控类型”为“基本监控”时,才包含该指标。 0~500000000 Kafka实例队列 1分钟 topic_bytes_out_rate 消费流量 该指标用于统计每秒消费的字节数。 单位:Byte/s、KB/s、MB/s、GB/s 说明: 在“主题”页签,当“监控类型”为“基本监控”时,才包含该指标。 0~500000000 Kafka实例队列 1分钟 topic_data_size 队列数据容量 该指标用于统计队列当前的消息数据大小。 单位:Byte、KB、MB、GB、TB、PB 说明: 在“主题”页签,当“监控类型”为“基本监控”时,才包含该指标。 0~5000000000000 Kafka实例队列 1分钟 topic_messages 队列消息总数 该指标用于统计队列当前的消息总数。 单位:Count 说明: 在“主题”页签,当“监控类型”为“基本监控”时,才包含该指标。 ≥ 0 Kafka实例队列 1分钟 topic_messages_in_rate 消息生产速率 该指标用于统计每秒生产的消息数量。 单位:Count/s 说明: 在“主题”页签,当“监控类型”为“基本监控”时,才包含该指标。 0~500000 Kafka实例队列 1分钟 partition_messages 分区消息数 该指标用于统计分区中当前的消息个数。 单位:Count 说明: 在“主题”页签,当“监控类型”为“分区监控”时,才包含该指标。 ≥ 0 Kafka实例队列 1分钟 produced_messages 生产消息数 该指标用于统计目前生产的消息总数。 单位:Count 说明: 在“主题”页签,当“监控类型”为“分区监控”时,才包含该指标。 ≥ 0 Kafka实例队列 1分钟
  • 实例监控指标 表1 实例支持的监控指标 指标ID 指标名称 指标含义 取值范围 测量对象 监控周期(原始指标) current_partitions 分区数 该指标用于统计Kafka实例中已经使用的分区数量。 单位:个 0~100000 Kafka实例 1分钟 current_topics 主题数 该指标用于统计Kafka实例中已经创建的主题数量。 单位:个 0~100000 Kafka实例 1分钟 group_msgs 堆积消息数 该指标用于统计Kafka实例中所有消费组中总堆积消息数。 单位:个 0~1000000000 Kafka实例 1分钟 instance_bytes_in_rate 生产流量 统计实例中每秒生产的字节数。 单位:Byte/s、KiB/s、MiB/s、GiB/s、TiB/s、PiB/s 说明: 部分存量实例不支持此监控,具体以控制台为准。 0~1000000 Kafka实例 1分钟 instance_bytes_out_rate 消费流量 统计实例中每秒消费的字节数。 单位:Byte/s、KiB/s、MiB/s、GiB/s、TiB/s、PiB/s 说明: 部分存量实例不支持此监控,具体以控制台为准。 0~1000000 Kafka实例 1分钟
  • 查看告警 登录 云日志 服务控制台。 左侧导航选择“日志告警”。 默认显示“告警列表”页面,在该页面默认显示30分钟(相对)的所有告警列表及其趋势图。 输入查询条件后进行搜索,页面会展示该条件下的所有告警信息及这些告警的趋势图,具体查询条件如下: 在页面上方搜索框中可根据日志组、日志流、告警级别、规则名称进行搜索。 设置时间范围,默认时间范围为30分钟(相对)。 时间范围有三种方式,分别是相对时间、整点时间和自定义。您可以根据自己的实际需求,选择时间范围。 相对时间:表示查询距离当前时间1分钟、5分钟、15分钟等时间区间的日志数据。例如当前时间为19:20:31,设置相对时间1小时,表示查询18:20:31~19:20:31的日志数据。 整点时间:表示查询最近整点1分钟、15分钟等时间区间的日志数据。例如当前时间为19:20:31,设置整点时间1小时,表示查询18:00:00~19:00:00的日志数据。 自定义:表示查询指定时间范围的日志数据。 设置搜索条件后,单击,查找在已设时间范围内满足搜索条件的告警。 查询的告警默认显示在“活动告警”页签下,将鼠标放在目标告警所在行中的“告警详情”可查看告警详情。单击告警列表中对应的“名称”,界面右侧弹出该告警的详细信息。 告警故障已经解除时,可单击列表中告警所在行后的删除按钮对该告警进行清除,被执行清除操作后的告警将会显示在“历史告警”页签。 针对已设置好的搜索条件,告警列表默认需要手动刷新,如需设置自动刷新可单击告警界面右上角,在弹出的下拉列表中选择“30秒自动刷新”、“1分钟自动刷新”或“5分钟自动刷新”,若在设置自动刷新后需要手动刷新,也可在下拉列表重新选择“手动刷新”。
  • 响应参数 状态码: 200 表4 响应Body参数 参数 参数类型 描述 - String - 状态码: 401 表5 响应Body参数 参数 参数类型 描述 error_code String 错误编码 error_msg String 错误原因 状态码: 403 表6 响应Body参数 参数 参数类型 描述 error_code String 错误编码 error_msg String 错误原因 状态码: 404 表7 响应Body参数 参数 参数类型 描述 error_code String 错误编码 error_msg String 错误原因
  • 告警解释 系统按120秒周期性检测HBase在HDFS上的如下目录和文件是否存在,当检测到文件或者目录不存在时,上报该告警。当文件或目录都恢复后,告警恢复。 检查内容: 命名空间hbase在HDFS上的目录。 hbase.version文件。 hbase:meta表在HDFS上的目录、.tableinfo和.regioninfo文件。 hbase:namespace表在HDFS上的目录、.tableinfo和.regioninfo文件。 hbase:hindex表在HDFS上的目录、.tableinfo和.regioninfo文件。 hbase:acl表在HDFS上的目录、.tableinfo和.regioninfo文件(该表在普通模式集群默认不存在)。
  • 实例监控指标 RDS for PostgreSQ L实例 性能监控指标,如表 RDS for PostgreSQL实例支持的监控指标所示。 表1 RDS for PostgreSQL实例支持的监控指标 指标ID 指标名称 指标含义 取值范围 测量对象 监控周期(原始指标) rds001_cpu_util CPU使用率 该指标用于统计测量对象的CPU使用率,以比率为单位。 0-100% RDS for PostgreSQL实例 1分钟 rds002_mem_util 内存使用率 该指标用于统计测量对象的内存使用率,以比率为单位。 0-100% RDS for PostgreSQL实例 1分钟 rds003_iops IOPS 该指标用于统计当前实例,单位时间内系统处理的I/O请求数量(平均值)。 ≥ 0 counts/s RDS for PostgreSQL实例 1分钟 read_count_per_second 读IOPS 该指标用于统计当前实例,单位时间内系统处理的读I/O请求数量(平均值)。 ≥ 0 counts/s RDS for PostgreSQL实例 1分钟 write_count_per_second 写IOPS 该指标用于统计当前实例,单位时间内系统处理的写I/O请求数量(平均值)。 ≥ 0 counts/s RDS for PostgreSQL实例 1分钟 rds004_bytes_in 网络输入吞吐量 该指标用于统计平均每秒从测量对象的所有网络适配器输入的流量,以字节/秒为单位。 ≥ 0 bytes/s RDS for PostgreSQL实例 1分钟 rds005_bytes_out 网络输出吞吐量 该指标用于统计平均每秒从测量对象的所有网络适配器输出的流量,以字节/秒为单位。 ≥ 0 bytes/s RDS for PostgreSQL实例 1分钟 rds039_disk_util 磁盘利用率 该指标用于统计测量对象的磁盘利用率,以比率为单位。 0-100% RDS for PostgreSQL实例 1分钟 rds040_transaction_logs_usage 事务日志使用量 事务日志所占用的磁盘容量。 ≥ 0 MB RDS for PostgreSQL实例 1分钟 rds041_replication_slot_usage 复制插槽使用量 复制插槽文件所占磁盘容量。 ≥ 0 MB RDS for PostgreSQL实例 1分钟 rds042_database_connections 数据库连接数 当前连接到数据库的后端量。 ≥ 0 counts RDS for PostgreSQL实例 1分钟 rds043_maximum_used_transaction_ids 事务最大已使用ID数 事务最大已使用ID。 ≥ 0 counts RDS for PostgreSQL实例 1分钟 rds044_transaction_logs_generations 事务日志生成速率 平均每秒生成的事务日志大小。 ≥ 0 MB/s RDS for PostgreSQL实例 1分钟 rds045_oldest_replication_slot_lag 最滞后副本滞后量 多个副本中最滞后副本(依据接收到的WAL数据)滞后量。 ≥ 0 MB RDS for PostgreSQL实例 1分钟 rds046_replication_lag 复制时延 副本滞后时延。 ≥ 0 ms RDS for PostgreSQL实例 1分钟 rds047_disk_total_size 磁盘总大小 该指标用于统计测量对象的磁盘总大小。 40GB~4000GB 部分用户支持40GB~15000GB,如果您想创建存储空间最大为15000GB的数据库实例,或提高扩容上限到15000GB,请联系客服开通。 RDS for PostgreSQL实例 1分钟 rds048_disk_used_size 磁盘使用量 该指标用于统计测量对象的磁盘使用大小。 0GB~4000GB 部分用户支持0GB~15000GB,如果您想创建存储空间最大为15000GB的数据库实例,或提高扩容上限到15000GB,请联系客服开通。 RDS for PostgreSQL实例 1分钟 rds049_disk_read_throughput 硬盘读吞吐量 该指标用于统计每秒从硬盘读取的字节数。 ≥ 0 bytes/s RDS for PostgreSQL实例 1分钟 rds050_disk_write_throughput 硬盘写吞吐量 该指标用于统计每秒写入硬盘的字节数。 ≥ 0 bytes/s RDS for PostgreSQL实例 1分钟 rds082_tps TPS 该指标用于统计每秒事务执行次数,含提交的和回退的。 ≥ 0 次/秒 RDS for PostgreSQL实例 1分钟 rds083_conn_usage 连接数使用率 该指标用于统计当前已用的PgSQL连接数占总连接数的百分比。 0-100% RDS for PostgreSQL实例 1分钟 row_per_second 操作行数 实例每秒增删改查操作的行数。 ≥ 0 RDS for PostgreSQL实例 1分钟 active_connections 活跃连接数 该指标为统计数据库当前活跃连接数。 ≥ 0 RDS for PostgreSQL实例 说明: 仅支持RDS for PostgreSQL10及以上版本。 1分钟 idle_transaction_connections 事务空闲连接数 该指标为统计数据库当前空闲连接数。 ≥ 0 RDS for PostgreSQL实例 说明: 仅支持RDS for PostgreSQL10及以上版本。 1分钟 oldest_transaction_duration 最长事务存活时长 该指标为统计当前数据库中存在的最长事务存活时长。 ≥ 0 ms RDS for PostgreSQL实例 说明: 仅支持RDS for PostgreSQL10及以上版本。 1分钟 oldest_transaction_duration_2pc 最长未决事务存活时长 该指标为统计当前数据库存在的最长未决事务存活时长。 ≥ 0 ms RDS for PostgreSQL实例 1分钟 disk_io_usage 磁盘IO使用率 该指标为统计磁盘IO使用率。磁盘IO使用率是指磁盘正在处理IO请求的时间与总时间的百分比。 说明: 当磁盘IO使用率达到100%,只能说明在统计时间段内,磁盘一直有数据写入,磁盘性能还需要结合IOPS、磁盘的吞吐量、读写时延等多个指标共同决定。 0-100% RDS for PostgreSQL实例 1分钟 lock_waiting_sessions 等待锁的会话数 该指标为统计当前处于阻塞状态的会话个数。 ≥ 0 RDS for PostgreSQL实例 1分钟 swap_in_rate swap in速率 该指标为统计每秒从交换区写到内存的大小。 ≥ 0 KB/s RDS for PostgreSQL实例 1分钟 swap_out_rate swap out速率 该指标为统计每秒写入交换区的内存的大小。 ≥ 0 KB/s RDS for PostgreSQL实例 1分钟 swap_total_size 交换区总容量大小 该指标为统计交换区总量。 ≥ 0 MB RDS for PostgreSQL实例 1分钟 swap_usage 交换区容量使用率 该指标为统计交换区使用率。 0-100% RDS for PostgreSQL实例 1分钟 db_max_age 最大数据库年龄 该指标为统计当前数据库的最大数据库年龄(获取表pg_database中max(age(datfrozenxid))值)。 ≥ 0 RDS for PostgreSQL实例 1分钟 cpu_user_usage 用户态CPU时间占比 该指标为统计用户态CPU时间占比。 0-100% RDS for PostgreSQL实例 1分钟 cpu_sys_usage 内核态CPU时间占比 该指标为统计内核态CPU时间占比。 0-100% RDS for PostgreSQL实例 1分钟 cpu_wait_usage 硬盘IO等待时间占比 该指标为统计硬盘IO等待时间占比。 0-100% RDS for PostgreSQL实例 1分钟 io_read_delay IO读响应延迟 该指标为统计磁盘读响应平均延迟(以毫秒为单位)。 ≥ 0 ms RDS for PostgreSQL实例 1分钟 io_write_delay IO写响应延迟 该指标为统计磁盘写响应平均延迟(以毫秒为单位)。 ≥ 0 ms RDS for PostgreSQL实例 1分钟 slow_sql_one_second 已执行1s的SQL数 该指标为统计数据库执行时长1秒以上的慢SQL个数。 ≥ 0 RDS for PostgreSQL实例 说明: 仅支持RDS for PostgreSQL10及以上版本。 1分钟 slow_sql_three_second 已执行3s的SQL数 该指标为统计数据库执行时长3秒以上的慢SQL个数。 ≥ 0 RDS for PostgreSQL实例 说明: 仅支持RDS for PostgreSQL10及以上版本。 1分钟 slow_sql_five_second 已执行5s的SQL数 该指标为统计数据库执行时长5秒以上的慢SQL个数。 ≥ 0 RDS for PostgreSQL实例 说明: 仅支持RDS for PostgreSQL10及以上版本。 1分钟 slow_sql_log_min_duration_statement 已执行log_min_duration_statement时长的SQL数 该指标为统计数据库执行时长比参数log_min_duration_statement大的慢SQL个数,该参数大小可根据业务需要进行更改。 ≥ 0 RDS for PostgreSQL实例 说明: 仅支持RDS for PostgreSQL10及以上版本。 1分钟 pg_dr_repl_stat 灾备节点复制状态 灾备状态状况。各数字含义如下: 异常:0 startup:1 catchup:2 streaming:3 backup:4 stopping:5 ≥ 0 RDS for PostgreSQL实例 说明: 仅支持RDS for PostgreSQL12版本的灾备实例。 1分钟 pg_dr_wal_delay 主机与灾备机间lsn延迟 该指标为统计数据库主机当前lsn和灾备机replay lsn的延迟。 ≥ 0 bytes/s RDS for PostgreSQL实例 说明: 仅支持RDS for PostgreSQL12版本的灾备实例。 1分钟 round_trip_time 主机与灾备机间网络延迟 该指标为统计数据库主机与灾备机间往返时延。 ≥ 0 ms RDS for PostgreSQL实例 说明: 仅支持RDS for PostgreSQL12版本的灾备实例。 1分钟 packet_loss_rate 主机与灾备机间丢包率 该指标为统计数据库主机与灾备机间丢包率。 0-100% RDS for PostgreSQL实例 说明: 仅支持RDS for PostgreSQL12版本的灾备实例。 1分钟 inactive_logical_replication_slot 非活跃逻辑复制槽数量 该指标用于统计当前数据库中存在的非活跃逻辑复制槽数量。 ≥ 0 RDS for PostgreSQL实例 1分钟 pgaudit_log_size 审计日志大小 该指标为获取当前审计日志的大小。 ≥ 0 GB RDS for PostgreSQL实例 5分钟 slave_replication_status 备机流复制状态 该指标为获取备机流复制状态,0:备机异常,1:备机正常,2:该实例为主机。 此处备机也包括只读实例。 Count RDS for PostgreSQL实例 1分钟 synchronous_replication_blocking_time 同步复制阻塞时间 该指标为获取同步复制主备机间复制阻塞的时长。 ≥ 0 s RDS for PostgreSQL实例 1分钟 temporary_files_generation_num 每分钟临时文件生成数量 该指标为获取临时文件在1分钟内生成的数量。 ≥ 0 Count/min RDS for PostgreSQL实例 1分钟 temporary_files_generation_size 每分钟临时文件生成大小 该指标为获取临时文件在1分钟内生成的大小。 ≥ 0 Byte/min RDS for PostgreSQL实例 1分钟 sent_lsn_replication_latency_size 主备间wal日志发送延迟 该指标为获取主机待发送wal日志延迟大小 ≥ 0 byte RDS for PostgreSQL只读实例 1分钟 write_lsn_replication_latency_size 主备间wal日志写入延迟 该指标为获取备机写入到磁盘的wal日志的延迟大小。 ≥ 0 byte RDS for PostgreSQL只读实例 1分钟 flush_lsn_replication_latency_size 主备间wal日志落盘延迟 该指标为获取备机刷入到磁盘的wal日志的延迟大小。 ≥ 0 byte RDS for PostgreSQL只读实例 1分钟 replay_lsn_replication_latency_size 主备间wal日志回放延迟 该指标为获取备机回放wal日志的延迟大小。 ≥ 0 byte RDS for PostgreSQL只读实例 1分钟 data_disk_inode_used inode数 数据盘已使用的inode数。 ≥ 0 Counts RDS for PostgreSQL实例 5分钟 user_current_connections 用户使用连接数 该指标为统计用户实际使用的连接数(不包括监控运维使用的内置连接)。 ≥ 0 Counts RDS for PostgreSQL实例 1分钟 user_active_connections 用户活跃连接数 该指标为统计用户实际使用的活跃连接数(不包括监控运维使用的内置活跃连接)。 ≥ 0 Counts RDS for PostgreSQL实例 1分钟 wal_size WAL日志占用空间大小 该指标为获取当前WAL日志所占空间大小。 ≥ 0 GB RDS for PostgreSQL实例 5分钟 dbuser_passwd_deadline 数据库用户最快过期时间 查询数据库用户密码过期时间,返回过期时间减去当前时间的最小值。 说明: 如果没有设置用户密码过期时间,这个指标采集不到。 ≥ 0 s RDS for PostgreSQL实例 5分钟 sys_memory_hit_rate 内存命中率 内存命中率 ≥ 0 % RDS for PostgreSQL实例 1分钟
  • 查看告警列表 您可以在“告警列表”页面查看最近发送的历史记录。 登录CCE控制台。 在集群列表页面,单击目标集群名称进入详情页。 在左侧导航栏选择“告警中心”,选择“告警列表”页签。 列表中默认展示全部待解决告警,支持按照告警关键字、告警等级,以及告警发生的时间范围筛选。同时支持查看指定筛选条件的告警在不同时间段的分布情况。 如果确认某条告警已排除,可以单击操作列的“清除”,清除后可在历史告警中查询。 图1 告警列表
  • 开启告警中心 在目标集群左侧导航栏选择“告警中心”。 选择“告警规则”页签,单击“开启告警中心”,在弹出的页面中选择一个或多个联系组,以便分组管理订阅终端并接收告警消息。如果当前还没有联系组,请参考配置告警通知人进行创建。 单击“确认”完成功能开启。 告警中心中的指标类告警规则依赖云原生监控插件上报指标数据到 AOM Prometheus实例,需要开通监控中心。当您的集群未安装插件或者在安装插件时未对接AOM Prometheus实例,告警中心将不会创建指标类告警规则。开通监控中心请参考开通监控中心。 表1中的事件类告警依赖日志中心开启收集Kubernetes事件的能力,详情请参见收集Kubernetes事件。