云服务器内容精选

  • 功能说明 本节定义了D CS 服务上报 云监控服务 的监控指标的命名空间,监控指标列表和维度定义,用户可以通过 云监控 服务提供管理控制台或API接口来检索DCS服务产生的监控指标和告警信息。 实例监控指标差异如下: 表1 实例监控指标差异 实例类型 实例级监控 数据节点级监控 Proxy节点级监控 单机 支持 只有实例级别的监控指标,实例监控即为数据节点监控。 不涉及 不涉及 主备 支持 实例监控是指对主节点的监控。 支持 数据节点监控分别是对主节点和备节点的监控。 不涉及 读写分离 支持 实例监控是指对主节点的监控。 支持 数据节点监控分别是对主节点和备节点的监控。 支持 Proxy节点监控是对实例中每个Proxy节点的监控。 Proxy集群 支持 实例监控是对集群所有主节点数据汇总后的监控。 支持 数据节点监控是对集群每个分片的监控。 支持 Proxy节点监控是对集群每个Proxy节点的监控。 Cluster集群 支持 实例监控是对集群所有主节点数据汇总后的监控。 支持 数据节点监控是对集群每个分片的监控。 不涉及
  • 维度 Key Value dcs_instance_id Redis实例 dcs_cluster_redis_node 数据节点 dcs_cluster_proxy_node Redis 3.0 Proxy集群实例Proxy节点 dcs_cluster_proxy2_node Redis 4.0/Redis 5.0 Proxy集群和读写分离实例Proxy节点 dcs_memcached_instance_id Memcached实例
  • 指标说明 运行监控指标说明如表1所示。 表1 监控指标说明表 指标 单位 说明 调用次数 次 函数总的调用请求数,包含了错误和被拒绝的调用。异步调用在该请求实际被系统执行时才开始计数。 运行时间 毫秒 最大运行时间为某统计粒度(周期)下,即某一时间段内单次函数执行最大的运行时间。 最小运行时间为某统计粒度(周期)下,即某一时间段内单次函数执行最小的运行时间。 平均运行时间为某统计粒度(周期)下,即某一时间段内单次函数执行平均的运行时间。 错误次数 次 指发生异常请求的函数不能正确执行完并且返回200,都计入错误次数。函数自身的语法错误或自身执行错误也会计入该指标。 被拒绝次数 次 由于并发请求太多,系统流控而被拒绝的请求次数。 资源统计 个 该函数的请求并发数和预留实例数。 内存使用量 MB 最大内存使用量为某统计粒度(周期)下,即某一时间段内单次函数执行最大的内存使用量。 最小内存使用量为某统计粒度(周期)下,即某一时间段内单次函数执行最小的内存使用量。 平均内存使用量为某统计粒度(周期)下,即某一时间段内单次函数执行平均的内存使用量。
  • 前提条件 TaurusDB正常运行。 故障、删除状态的TaurusDB,无法在云监控中查看其监控指标。当TaurusDB再次启动或恢复后,即可正常查看。 故障24小时的TaurusDB,云监控将默认该TaurusDB不存在,并在监控列表中删除,不再对其进行监控,但告警规则需要用户手动清理。 TaurusDB已正常运行一段时间(约10分钟)。 对于新创建的TaurusDB,需要等待一段时间,才能查看上报的监控数据和监控视图。
  • Smart Connect监控指标 表5 Smart Connect支持的监控指标 指标ID 指标名称 指标含义 取值范围 测量对象 监控周期(原始指标) kafka_wait_synchronize_data 待同步Kafka数据量 Kafka任务的待同步数据量。 单位:Count ≥ 0 Kafka实例的Smart Connect任务 1分钟 kafka_synchronize_rate Kafka每分钟同步数据量 Kafka任务每分钟同步的数据量。 单位:Count ≥ 0 Kafka实例的Smart Connect任务 1分钟 task_status 任务状态 当前任务状态。 0:任务异常 1:任务正常 Kafka实例的Smart Connect任务 1分钟 message_delay 消息时延 消息到达源端的时间与到达目标端的时间之差。 单位:ms ≥ 0 Kafka实例的Smart Connect任务 1分钟 使用Smart Connect监控指标时,请注意如下几点: Kafka双向数据复制的Smart Connect任务在监控中会被拆分为2个任务,分别为“Smart Connect任务名_source_0”和“Smart Connect任务名_source_1”。 如果Topic中的消息在进行下一次数据同步前,已经全部老化,此时实际是没有待同步的Kafka数据,但是Kafka数据同步监控指标使用的是包含老化数据的offset值,“待同步Kafka数据量”会显示老化的消息数。
  • 维度 Key Value kafka_instance_id Kafka实例 kafka_broker Kafka实例节点 kafka_topics Kafka实例主题 kafka_partitions Kafka实例分区 kafka_groups-partitions Kafka实例分区的消费组 kafka_groups_topics Kafka实例队列的消费组 kafka_groups Kafka实例的消费组 connector_task Kafka实例的Smart Connect任务
  • 消费组监控指标 表4 消费组支持的监控指标 指标ID 指标名称 指标含义 取值范围 测量对象 监控周期(原始指标) messages_consumed 分区已消费消息数 该指标用于统计当前消费组已经消费的消息个数。 单位:Count 在“消费组”页签,“主题”为指定的Topic名称,“监控类型”为“分区监控”时,才包含该指标。 ≥ 0 Kafka实例的消费组 1分钟 messages_remained 分区可消费消息数 该指标用于统计消费组可消费的消息个数。 单位:Count 在“消费组”页签,“主题”为指定的Topic名称,“监控类型”为“分区监控”时,才包含该指标。 ≥ 0 Kafka实例的消费组 1分钟 topic_messages_remained 队列可消费消息数 该指标用于统计消费组指定队列可以消费的消息个数。 单位:个 在“消费组”页签,“主题”为指定的Topic名称,“监控类型”为“基本监控”时,才包含该指标。 0~(263-1) Kafka实例的消费组 1分钟 topic_messages_consumed 队列已消费消息数 该指标用于统计消费组指定队列当前已经消费的消息数。 单位:个 在“消费组”页签,“主题”为指定的Topic名称,“监控类型”为“基本监控”时,才包含该指标。 0~(263-1) Kafka实例的消费组 1分钟 consumer_messages_remained 消息堆积数(消费组可消费消息数) 该指标用于统计消费组剩余可以消费的消息个数。 单位:个 在“消费组”页签,“主题”为“全部队列”时,才包含该指标。 0~(263-1) Kafka实例的消费组 1分钟 consumer_messages_consumed 消费组已消费消息数 该指标用于统计消费组当前已经消费的消息数。 单位:个 在“消费组”页签,“主题”为“全部队列”时,才包含该指标。 0~(263-1) Kafka实例的消费组 1分钟 messages_consumed_per_min 分区消费速率 统计消费组指定队列分区每分钟的消费数。 单位:个/分钟 在“消费组”页签,“主题”为指定的Topic名称,“监控类型”为“分区监控”时,才包含该指标。 部分存量实例不支持此监控,具体以控制台为准。 0~30000000 Kafka实例的消费组 1分钟 topic_messages_consumed_per_min 队列消费速率 统计消费组指定队列每分钟的消费数。 单位:个/分钟 在“消费组”页签,“主题”为指定的Topic名称,“监控类型”为“基本监控”时,才包含该指标。 部分存量实例不支持此监控,具体以控制台为准。 0~30000000 Kafka实例的消费组 1分钟 consumer_messages_consumed_per_min 消费组消费速率 统计消费组每分钟的消费数。 单位:个/分钟 在“消费组”页签,“主题”为“全部Topic”时,才包含该指标。 部分存量实例不支持此监控,具体以控制台为准。 0~30000000 Kafka实例的消费组 1分钟
  • 主题监控指标 表3 主题支持的监控指标 指标ID 指标名称 指标含义 取值范围 测量对象 监控周期(原始指标) topic_bytes_in_rate 生产流量 该指标用于统计每秒生产的字节数。 单位:Byte/s、KB/s、MB/s、GB/s 在“主题”页签,当“监控类型”为“基本监控”时,才包含该指标。 0~500000000 Kafka实例队列 1分钟 topic_bytes_out_rate 消费流量 该指标用于统计每秒消费的字节数。 单位:Byte/s、KB/s、MB/s、GB/s 在“主题”页签,当“监控类型”为“基本监控”时,才包含该指标。 0~500000000 Kafka实例队列 1分钟 topic_data_size 队列数据容量 该指标用于统计队列当前的消息数据大小。 单位:Byte、KB、MB、GB、TB、PB 在“主题”页签,当“监控类型”为“基本监控”时,才包含该指标。 0~5000000000000 Kafka实例队列 1分钟 topic_messages 队列消息总数 该指标用于统计队列当前的消息总数。 单位:Count 在“主题”页签,当“监控类型”为“基本监控”时,才包含该指标。 ≥ 0 Kafka实例队列 1分钟 topic_messages_in_rate 消息生产速率 该指标用于统计每秒生产的消息数量。 单位:Count/s 在“主题”页签,当“监控类型”为“基本监控”时,才包含该指标。 0~500000 Kafka实例队列 1分钟 partition_messages 分区消息数 该指标用于统计分区中当前的消息个数。 单位:Count 在“主题”页签,当“监控类型”为“分区监控”时,才包含该指标。 ≥ 0 Kafka实例队列 1分钟 produced_messages 生产消息数 该指标用于统计目前生产的消息总数。 单位:Count 在“主题”页签,当“监控类型”为“分区监控”时,才包含该指标。 ≥ 0 Kafka实例队列 1分钟
  • 实例监控指标 表1 实例支持的监控指标 指标ID 指标名称 指标含义 取值范围 测量对象 监控周期(原始指标) current_partitions 分区数 该指标用于统计Kafka实例中已经使用的分区数量。 单位:个 0~100000 Kafka实例 1分钟 current_topics 主题数 该指标用于统计Kafka实例中已经创建的主题数量。 单位:个 0~100000 Kafka实例 1分钟 group_msgs 堆积消息数 该指标用于统计Kafka实例中所有消费组中总堆积消息数。 单位:个 0~1000000000 Kafka实例 1分钟 instance_bytes_in_rate 生产流量 统计实例中每秒生产的字节数。 单位:Byte/s、KiB/s、MiB/s、GiB/s、TiB/s、PiB/s 部分存量实例不支持此监控,具体以控制台为准。 0~1000000 Kafka实例 1分钟 instance_bytes_out_rate 消费流量 统计实例中每秒消费的字节数。 单位:Byte/s、KiB/s、MiB/s、GiB/s、TiB/s、PiB/s 部分存量实例不支持此监控,具体以控制台为准。 0~1000000 Kafka实例 1分钟 current_partitions_usage 分区使用率 该指标用于统计分区使用率。 单位:% 部分存量实例不支持此监控,具体以控制台为准。 0~100% Kafka实例 1分钟
  • 维度 Key Value rabbitmq_instance_id RabbitMQ实例 rabbitmq_node RabbitMQ实例节点 rabbitmq_queue RabbitMQ实例队列 rabbitmq_vhost RabbitMQ实例Vhost rabbitmq_vhost_exchange RabbitMQ实例Exchange rabbitmq_vhost_queue RabbitMQ实例Queue
  • 监控指标 表1 云防火墙 服务支持的监控指标 指标ID 指标名称 指标含义 取值范围 测量对象 监控周期(原始指标) used_protection_bandwidth 防护带宽使用量 该指标用于统计近5分钟内CFW检测到的互联网带宽使用量。 单位:KB/s ≥ 0 值类型:Float 云防火墙 5分钟 protection_bandwidth_usage 防护带宽使用率 该指标用于统计5分钟内CFW检测到的互联网带宽使用率。 单位:百分比 采集方式:带宽使用量/防火墙带宽配额的占比。 ≥ 0 值类型:Float 云防火墙 5分钟 internet_protection_bandwidth_usage 互联网防护带宽使用量 该指标为防火墙互联网防护对象带宽使用量。 单位:Bit/s ≥ 0 值类型:Float 云防火墙 每分钟 vpc_protection_bandwidth_usage VPC间防护带宽使用量 该指标为防火墙VPC间防护对象带宽使用量。 单位:Bit/s ≥ 0 值类型:Float 云防火墙 每分钟 internet_protection_bandwidth_usage_rate 互联网防护带宽使用率 该指标为防火墙互联网防护对象带宽使用率。 单位:% ≥ 0 值类型:Float 云防火墙 每分钟 vpc_protection_bandwidth_usage_rate VPC间防护带宽使用率 该指标为防火墙VPC间防护对象带宽使用率。 单位:% ≥ 0 值类型:Float 云防火墙 每分钟 internet_protection_pps 防火墙互联网方向pps 该指标为防火墙互联网防护对象pps 单位:个 ≥ 0 值类型:Float 云防火墙 每分钟 vpc_protection_pps 防火墙VPC间pps 该指标为防火墙VPC间防护对象pps 单位:个 ≥ 0 值类型:Float 云防火墙 每分钟 ips_hit_count IPS规则命中次数 该指标为流量命中IPS规则的次数 ≥ 0 值类型:Int 云防火墙 每分钟 ips_deny_count IPS规则阻断次数 该指标为流量被IPS规则阻断的次数 单位:个 ≥ 0 值类型:Int 云防火墙 每分钟 acl_hit_count ACL规则命中次数 该指标为流量命中ACL规则的次数 单位:个 ≥ 0 值类型:Int 云防火墙 每分钟 acl_deny_count ACL规则阻断次数 该指标为流量被ACL模块阻断的次数 单位:个 ≥ 0 值类型:Int 云防火墙 每分钟
  • 维度 Key Value reliablemq_instance_id RocketMQ实例 reliablemq_broker RocketMQ实例节点 reliablemq_topics RocketMQ实例队列 reliablemq_groups RocketMQ实例的消费组 reliablemq_groups_topics RocketMQ实例队列的消费组 reliablemq_dlq_topics RocketMQ实例的死信队列
  • 查看DCS性能监控 登录分布式缓存服务管理控制台。 在管理控制台左上角单击,选择实例所在的区域。 单击左侧菜单栏的“缓存管理”,进入缓存实例信息页面。 单击需要查看性能监控指标的缓存实例,进入实例基本信息页面。 单击“性能监控”,页面显示该实例的所有监控指标信息。 您也可以在需要查看的缓存实例的“操作”列,单击“查看监控”,进入云监控服务的页面查看,这和在缓存实例信息页面“性能监控”页签内容一致。
  • 配置步骤(按指定资源) 以配置是否存在慢日志(is_slow_log_exist)监控指标的告警规则为例: 登录分布式缓存服务管理控制台。 在管理控制台左上角单击,选择实例所在的区域。 单击左侧菜单栏的“缓存管理”,进入缓存实例信息页面。 在需要查看的缓存实例的“操作”列,单击“查看监控”,进入该实例的监控指标页面。 图3 查看实例监控指标 在实例监控指标页面中,找到指标名称为“是否存在慢日志”的指标项,鼠标移动到指标区域,然后单击指标右上角的,创建告警规则。 跳转到创建告警规则页面。 在告警规则页面,设置告警信息。 设置告警名称和告警的描述。 设置告警策略和告警级别。 如图4所示,在指标监控时,如果连续2个周期,客户执行了耗时命令,产生了慢查询,则产生告警,如果未及时处理,则每一天发送一次告警通知,直至指标恢复到0,表示不存在慢日志。 图4 设置告警内容 设置“发送通知”开关。当开启时,设置告警生效时间、产生告警时通知的对象以及触发的条件。 单击“立即创建”,等待创建告警规则成功。 如果创建告警规则有问题,可查看云监控服务的用户指南“创建告警规则”。 如果需要修改或停用所创建的告警,请参考告警规则管理。
  • DCS常用的监控指标 本章节主要列举Redis的常用监控指标。 表1 常用监控指标说明 指标名称 说明 CPU利用率 该指标统计的是每个统计周期(分钟级就是每1分钟,秒级就是每5秒)内的最大值。 如果是单机和主备实例,支持查看实例级别的CPU使用情况。 如果是Proxy集群实例,支持查看数据节点和Proxy节点的CPU使用情况。 如果是Cluster集群,仅支持查看数据节点的CPU使用情况。 内存利用率 该指标统计的是每个统计周期(分钟级就是每1分钟,秒级就是每5秒)内的内存使用情况。 如果是单机和主备实例,支持查看实例级别的内存使用情况。 如果是Proxy集群实例,支持查看实例级别和节点级别的内存使用情况。 如果是Cluster集群,仅支持查看数据节点的内存使用情况。 须知: 内存利用率统计是扣除预留内存的。 活跃的客户端数量 该指标统计的是瞬时的已连接客户端数量,也叫连接并发数。 如果是主备和集群实例,不包括从节点的连接。 活跃的客户端数量上限,可以查看实例规格下对应实例类型的“连接数上限”。 每秒并发操作数 该指标统计的是瞬时的每秒处理的命令数。 每秒并发操作数上限,可以查看实例规格下对应实例类型的“参考性能(QPS)”。 网络瞬时输入流量 该指标用于统计瞬时的输入数据流量。 如果是实例级别的网络瞬时输入流量,所有节点输入数据流量汇总后展示。 如果是节点级别,统计的是本节点的输入数据流量。 网络瞬时输出流量 该指标用于统计瞬时的输出数据流量。 如果是实例级别的网络瞬时输出流量,所有节点输出数据流量汇总后展示。 如果是节点级别,统计的是本节点的输出数据流量。 带宽使用率 该指标计算当前流量带宽与最大带宽限制的百分比。 带宽使用率=(网络瞬时输入流量+网络瞬时输出流量)/(2*最大带宽限制)* 100% 处理的命令数 该指标统计的是周期内处理的命令数,周期默认为1分钟。 和每秒并发操作数主要区别在于监控周期。每秒并发操作数,统计的是周期内的一个瞬时的处理命令数;处理的命令数,统计的是周期内处理的命令数总和。 流控次数 该指标用于统计周期内流量超过该实例规格对应的最大带宽的次数。 实例规格对应的最大带宽,可以查看实例规格下对应实例类型的“基准/最大带宽”。 慢查询 该指标用于统计实例是否存在慢查询。 慢查询产生的原因,请查看慢查询。 父主题: 查看监控指标与配置告警