云服务器内容精选

  • 查询告警参数说明 可以用不同参数对告警进行查询,参数说明如表3所示。 表3 查询告警参数说明 告警参数 参数说明 应用/服务 告警所属的服务,不选则默认展示用户拥有权限下的所有告警。 告警级别 告警上报时所带的level字段。 显示模式 显示模式分为三种,告警收敛、原始告警和仅收敛告警。默认显示告警收敛。 告警收敛:展示已收敛的告警和未收敛的告警。当告警被收敛后,可以单击收敛告警“操作”列的“详情”,查看并处理收敛的子告警。 原始告警:原始告警展示除了收敛告警外的所有告警,包括已经被收敛了的原始告警也会展示。 仅收敛告警:仅展示已经被收敛了的告警。 状态 支持对未确认、已确认、已通知、处理中和处理完成的告警进行查询。 语音呼叫状态 告警当前的语音呼叫的状态。 告警类型 上报的告警会显示类型信息,可根据类型筛选查看告警。 入库时间 告警进入系统的时间。 区域 告警涉及的区域。 告警单发 选择是否查看属于告警单发的告警。 无处理人 选择无处理人的告警。
  • 告警类型说明 告警在列表中总共有五种状态,实际上告警本身只有告警中和已解决两种状态,根据这两种状态在系统中不同的标记又细分为五种状态,具体告警类型如表2所示。 表2 告警类型说明 告警类型 告警说明 当前告警 告警进入系统后如果没有被屏蔽规则屏蔽就会进入该页签,表示当前仍然是告警中状态且未被清除和屏蔽的告警。 屏蔽告警 告警进入系统后被设置的屏蔽规则自动屏蔽或者人为在界面上手动单击屏蔽的告警。屏蔽的告警分为两种,一种是有具体屏蔽时间的,到了屏蔽时间结束后会作为一条新的告警再次出现在当前告警的列表中,一种是没有屏蔽时间的,将会被永久屏蔽。 历史告警 历史告警都是已解决的告警,让告警进入已解决的状态的方式有两种,一种是上报的告警已解决,这条告警就会被清除进入历史告警,或者是在界面上直接清除告警也会进入历史告警。 未确认已恢复告警 系统接收到已解决或自动清除的告警,非界面操作影响的告警。 归档告警 历史告警中,告警级别在严重和紧急的告警且是已解决状态的,每个小时会被定时任务扫描到转移至归档告警。
  • 概述 告警管理包含查看告警规则、告警规则配置与告警信息订阅功能。其中,告警规则可以提供过去一周的告警信息统计与告警信息明细,方便用户自行查看租户下的告警。该特性除了以默认值的形式提供一套 GaussDB (DWS)告警最佳实践外,还允许用户根据自己的业务特点,个性化修改告警阈值。告警管理通过 消息通知 服务(Simple Message Notification,简称 SMN )发送GaussDB(DWS) 告警通知,用户可订阅告警启用通知。 该特性仅8.1.1.200及以上集群版本支持。 告警管理目前暂不支持按照企业项目划分告警。
  • 告警解释 GaussDB(DWS)通过资源池实现对内存、IO和CPU等资源的控制,并基于优先级调度机制实现资源管理和分配,对用户业务提供资源负载管理服务。某种资源紧张时,可能出现SQL语句阻塞排队,等待其他语句执行完毕后才能执行的现象,详情请参见动态负载管理下的CCN排队。 GaussDB(DWS)固定每5分钟检查默认资源池default_pool的队列阻塞情况。如果存在长时间阻塞无法执行的SQL语句(默认20分钟,可配置),则触发集群默认资源池队列阻塞告警;当集群不存在符合告警条件的SQL语句时,自动消除该告警。 如果一直存在能够引发告警的阻塞SQL,那么在24小时(可配置)后将再次发起告警。
  • 响应参数 状态码: 200 表4 响应Body参数 参数 参数类型 描述 - String - 状态码: 401 表5 响应Body参数 参数 参数类型 描述 error_code String 错误编码 error_msg String 错误原因 状态码: 403 表6 响应Body参数 参数 参数类型 描述 error_code String 错误编码 error_msg String 错误原因 状态码: 404 表7 响应Body参数 参数 参数类型 描述 error_code String 错误编码 error_msg String 错误原因
  • 操作场景 云服务平台提供的 云监控 ,可以对GaussDB(for MySQL)标准版的运行状态进行日常监控。您可以通过管理控制台,直观地查看GaussDB(for MySQL)标准版的各项监控指标。 由于监控数据的获取与传输会花费一定时间,因此,云监控显示的是当前时间5~10分钟前的GaussDB(for MySQL)标准版状态。如果您的GaussDB(for MySQL)标准版刚创建完成,请等待5~10分钟后查看监控数据。
  • 功能优势 易于开始,便于复制。 日志接入LTS后,即可创建告警规则和通知策略,支持实时接收潜在的告警事件并响应。 高可用性与可靠性。 依托于LTS的高可用性与数据可靠性,告警服务的可用性达到99.9%,告警相关的数据可靠性高于99.99999999%。 低成本与免运维。 目前LTS暂时不收取告警规则、告警管理等其他费用,降低告警系统的运维成本和运维人员的时间成本。后续如有收费计划将至少提前1个月通知您。 短信通知按实际用量付费,详细请参考消息通知服务的计费说明。语音是白名单功能,具体收费请参考计费说明。 快速响应异常问题。 更全面、更智能的告警监控能力与告警行动规则能力,使告警的响应变得更迅速,提高问题解决的速度,减少因业务异常造成的损失。
  • 基本消息结构体 推送消息给企业ISV平台时,各参数定义如下: 请求头header,当用户设置auth_key的值,会携带这两个请求头 字段名 类型 是否可为空 说明 X-Ivm-Timestamp Int64/long整型 不为空 UNIX时间戳,整形正数,固定长度10,1970年1月1日以来的秒数,表示回调请求发起时间。 X-Ivm-Signature String 不为空 接口请求token,token生成方式,为将callback_url,X-Ivm-Timestamp,auth_key三个字段进行拼接,字段中间以竖线(|)分割,后计算sha256值。即 X-Ivm-Signature = sha256(callback_url|X-Ivm-Timestamp|auth_key),回调消息接收端接收请求后可自行计算该值并做比较,若不相等,则请求非法 结构体req 字段名 类型 是否可为空 说明 message_id Int64/long整型 不为空 消息ID:该消息的唯一标识,根据时间戳生成(18到32位的数字),无重复 message_type String 可能为空 消息类型:分为设备智能告警消息、设备异常告警消息、设备解绑消息和设备智能数据消息四大类 枚举值: 设备智能告警消息: device_alarm 智能告警消息,包含目标智能告警,口罩告警,周界告警,人群态势告警及第三方智能告警消息等 设备异常告警消息: device_status 设备异常消息,包含设备/通道上下线告警,通道名称修改,以及设备升级失败 设备解绑消息: device_unbind 设备解绑和套餐解绑的消息 设备智能数据消息: target_data 智能业务中的目标及目标整体业务 third_data 第三方智能业务,目前是提供整个数据包,使用方需自行解析。订阅时要和第三方智能告警数据区分开 vehicle_data 智能业务中的机非人业务 head_shoulder_data 智能业务中的头肩业务 behavior_analysis_data 智能业务中的行为分析与人车物分离 micro_checkpoint_data 智能业务中的微卡口业务 data Object 可能为空 智能告警信息: 当 message_type 不同时,data 格式不同,可参考message_type里各种类型的介绍; 当智能类型算法升级时,可能会在推送的结构体里添加新字段; test Boolean 不为空 当test字段为true时,表示这是配置回调URL时测试是否可访问的消息,被调用方需要返回响应码为200。注意,此时message_type和data字段不传。 当test字段为false时,表示这是一条推送消息,message_type和data字段正常传入。 父主题: 告警推送消息体结构
  • 用户平时需要关注实例的哪些性能指标 用户平时需要关注的监控指标有:CPU利用率、内存利用率、磁盘空间利用率。 更多监控指标信息,请参见文档数据库服务支持的监控指标。 可以根据实际应用场景配置告警提示,当收到告警,可采取相应措施消除告警。 配置示例: 如果在某段时间内(如5min),CPU的利用率出现多次(如3次)不低于某特定值(如90%)的情况,则发出相应云监控告警。 如果在某段时间内(如5min),内存的利用率出现多次(如4次)不低于某特定值(如90%)的情况,则发出相应云监控告警。 如果在某段时间内(如5min),磁盘的使用率出现多次(如5次)不低于某特定值(如85%)的情况,则发出相应云监控告警。 云监控告警详细配置方法,详见《云监控用户指南》中“告警规则管理”。 如果CPU、内存使用率长期较高,且无法扩容磁盘容量,可以选择变更CPU和内存规格。 采取措施: 收到与磁盘空间利用率有关的告警: 调查磁盘空间消耗,查看是否可以从实例中删除数据或是将数据存档到其他系统以释放空间。 通过磁盘空间扩容增大磁盘空间,请参见扩容存储。 父主题: 监控和告警
  • 查询告警参数说明 可以用不同参数对告警进行查询,参数说明如表3所示。 表3 查询告警参数说明 告警参数 参数说明 应用/服务 告警所属的自有服务,不选则默认展示用户拥有权限下的所有告警。 告警级别 告警上报时所带的level字段。 显示模式 显示模式分为三种,告警收敛,原始告警和仅收敛告警。 告警收敛:展示未参与收敛的告警与收敛的告警是默认的显示模式,当告警被收敛后,收敛告警的正文中会统计当前收敛的子告警的状态。单击告警收敛后可以操作和查看具体子告警。 原始告警:原始告警展示除了收敛告警外的所有告警,包括已经被收敛了的原始告警也会展示。 仅收敛告警:仅展示已经被收敛了的告警。 状态 支持对未确认、已确认、已通知、处理中和处理完成的告警进行查询。 语音呼叫状态 告警当前的语音呼叫的状态。 告警类型 告警上报时的category字段。 入库时间 告警进入系统的时间。 区域 告警涉及的区域。 告警单发 选择是否查看属于告警单发的告警。
  • 告警类型说明 告警在列表中总共有五种状态,实际上告警本身只有告警中和已解决两种状态,根据这两种状态在系统中不同的标记又细分为五种状态,具体告警类型如表2所示。 表2 告警类型说明 告警类型 告警说明 当前告警 告警进入系统后如果没有被屏蔽规则屏蔽就会进入该页签,表示当前仍然是告警中状态且未被清除和屏蔽的告警。 屏蔽告警 告警进入系统后被设置的屏蔽规则自动屏蔽或者人为在界面上手动单击屏蔽的告警。屏蔽的告警分为两种,一种是有具体屏蔽时间的,到了屏蔽时间结束后会作为一条新的告警再次出现在当前告警的列表中,一种是没有屏蔽时间的,将会被永久屏蔽。 历史告警 历史告警都是已解决的告警,让告警进入已解决的状态的方式有两种,一种是上报的告警已解决,这条告警就会被清除进入历史告警,或者是在界面上直接清除告警也会进入历史告警。 未确认已恢复告警 系统接收到已解决或自动清除的告警,非界面操作影响的告警。 归档告警 历史告警中,告警级别在严重和紧急的告警且是已解决状态的,每个小时会被定时任务扫描到转移至归档告警。
  • Smart Connect监控指标 表5 Smart Connect支持的监控指标 指标ID 指标名称 指标含义 取值范围 测量对象 监控周期(原始指标) kafka_wait_synchronize_data 待同步Kafka数据量 Kafka任务的待同步数据量。 单位:Count ≥ 0 Kafka实例的Smart Connect任务 1分钟 kafka_synchronize_rate Kafka每分钟同步数据量 Kafka任务每分钟同步的数据量。 单位:Count ≥ 0 Kafka实例的Smart Connect任务 1分钟 task_status 任务状态 当前任务状态。 0:任务异常 1:任务正常 Kafka实例的Smart Connect任务 1分钟 message_delay 消息时延 消息到达源端的时间与到达目标端的时间之差。 单位:ms ≥ 0 Kafka实例的Smart Connect任务 1分钟 Kafka双向数据复制的Smart Connect任务在监控中会被拆分为2个任务,分别为“Smart Connect任务名_source_0”和“Smart Connect任务名_source_1”。 如果Topic中的消息在进行下一次数据同步前,已经全部老化,此时实际是没有待同步的Kafka数据,但是Kafka数据同步监控指标使用的是包含老化数据的offset值,“待同步Kafka数据量”会显示老化的消息数。
  • 维度 Key Value kafka_instance_id Kafka实例 kafka_broker Kafka实例节点 kafka_topics Kafka实例主题 kafka_partitions Kafka实例分区 kafka_groups-partitions Kafka实例分区的消费组 kafka_groups_topics Kafka实例队列的消费组 kafka_groups Kafka实例的消费组 connector_task Kafka实例的Smart Connect任务
  • 实例监控指标 表1 实例支持的监控指标 指标ID 指标名称 指标含义 取值范围 测量对象 监控周期(原始指标) current_partitions 分区数 该指标用于统计Kafka实例中已经使用的分区数量。 单位:Count 0~100000 Kafka实例 1分钟 current_topics 主题数 该指标用于统计Kafka实例中已经创建的主题数量。 单位:Count 0~100000 Kafka实例 1分钟 group_msgs 堆积消息数 该指标用于统计Kafka实例中所有消费组中总堆积消息数。 单位:Count 0~1000000000 Kafka实例 1分钟
  • 消费组监控指标 表4 消费组支持的监控指标 指标ID 指标名称 指标含义 取值范围 测量对象 监控周期(原始指标) messages_consumed 分区已消费消息数 该指标用于统计当前消费组已经消费的消息个数。 单位:Count 说明: 在“消费组”页签,“主题”为指定的Topic名称,“监控类型”为“分区监控”时,才包含该指标。 ≥ 0 Kafka实例的消费组 1分钟 messages_remained 分区可消费消息数 该指标用于统计消费组可消费的消息个数。 单位:Count 说明: 在“消费组”页签,“主题”为指定的Topic名称,“监控类型”为“分区监控”时,才包含该指标。 ≥ 0 Kafka实例的消费组 1分钟 topic_messages_remained 队列可消费消息数 该指标用于统计消费组指定队列可以消费的消息个数。 单位:个 说明: 在“消费组”页签,“主题”为指定的Topic名称,“监控类型”为“基本监控”时,才包含该指标。 0~(263-1) Kafka实例的消费组 1分钟 topic_messages_consumed 队列已消费消息数 该指标用于统计消费组指定队列当前已经消费的消息数。 单位:个 说明: 在“消费组”页签,“主题”为指定的Topic名称,“监控类型”为“基本监控”时,才包含该指标。 0~(263-1) Kafka实例的消费组 1分钟 consumer_messages_remained 消息堆积数(消费组可消费消息数) 该指标用于统计消费组剩余可以消费的消息个数。 单位:个 说明: 在“消费组”页签,“主题”为“全部队列”时,才包含该指标。 0~(263-1) Kafka实例的消费组 1分钟 consumer_messages_consumed 消费组已消费消息数 该指标用于统计消费组当前已经消费的消息数。 单位:个 说明: 在“消费组”页签,“主题”为“全部队列”时,才包含该指标。 0~(263-1) Kafka实例的消费组 1分钟 messages_consumed_per_min 分区消费速率 统计消费组指定队列分区每分钟的消费数。 单位:个/分钟 说明: 在“消费组”页签,“主题”为指定的Topic名称,“监控类型”为“分区监控”时,才包含该指标。 部分存量实例不支持此监控,具体以控制台为准。 0~30000000 Kafka实例的消费组 1分钟 topic_messages_consumed_per_min 队列消费速率 统计消费组指定队列每分钟的消费数。 单位:个/分钟 说明: 在“消费组”页签,“主题”为指定的Topic名称,“监控类型”为“基本监控”时,才包含该指标。 部分存量实例不支持此监控,具体以控制台为准。 0~30000000 Kafka实例的消费组 1分钟 consumer_messages_consumed_per_min 消费组消费速率 统计消费组每分钟的消费数。 单位:个/分钟 说明: 在“消费组”页签,“主题”为“全部Topic”时,才包含该指标。 部分存量实例不支持此监控,具体以控制台为准。 0~30000000 Kafka实例的消费组 1分钟