云服务器内容精选

  • 告警通知 当告警触发后,我们需要定义通知的渠道和对象,快速的将告警信息通过配置的渠道通知到运维人员。 当前 CES 支持以下三种方式来完成通知的配置。 通知策略(推荐):产品最新上线能力,通过通知策略可以完成告警的分级通知、简易排班。 通知组:通过在 云监控服务 上配置的通知群组,可以快速通知到指定运维人员。 主体订阅:通过在 消息通知 服务( SMN )配置的主题,快速将该消息推送至消息主题。 通知配置模块如下图所示。 通知策略模块如下图所示。 监控最核心的职责是帮助用户发现问题,而问题的发现是依赖监控系统中对告警规则的配置,告警规则配置的覆盖率、准确率将直接影响监控系统的故障发现率。
  • 告警状态有哪些? 目前 云监控 服务支持五种告警状态: 告警中、已解决、数据不足、已触发、已失效。 告警中:监控指标数值达到告警配置阈值,资源正在告警中; 已解决:监控指标数值恢复至正常区间,资源的告警已解决; 数据不足:连续三个小时未有监控数据上报,通常是由于相应服务实例被删除或状态异常导致; 已触发:监控的资源触发了告警策略中配置的事件; 已失效:告警规则中监控的资源或告警策略有调整,原有的告警记录状态失效。 父主题: 告警
  • 约束与限制 按搜索分析创建告警规则功能目前在邀测中,暂不支持申请开通。 按SQL统计创建告警规则功能仅支持全部用户使用的局点有:华南-广州、华北-北京四、华北-乌兰察布二零一、华北-乌兰察布一、华东-上海一、华东-上海二、中国-香港、亚太-曼谷、亚太-新加坡,支持部分白名单用户使用的局点有:华北-北京一、西南-贵阳一、亚太-曼谷、华南-深圳、华北-乌兰察布一、华北-乌兰察布二零二,其他局点暂不支持该功能。 当前仅华南-广州区域“告警管理”菜单名称更名为“告警中心”,“告警行动规则”菜单名称更名为“告警通知”,“告警行动规则”页签名称更改为“通知规则管理”。
  • 告警解释 The status of M-LAG interfaces changes from dual-homing to single-homing. (M-LAG ID=[hwMlagInfId], LocalIfname=[hwMlagInfName], LocalSystemMAC=[hwLocalSysID], RemoteSystemMAC=[hwRemoteSysID], LocalStatus=[hwLocalStatus], RemoteStatus=[hwRemoteStatus]). M-LAG口从双归变成单归。 仅S6750-H, S5755-H, S6730-H-V2, S5732-H-V2形态支持此告警。
  • 告警属性 告警ID 告警级别 告警类型 303046425 紧急 其他 在iMaster NCE-Campus的V300R021C00版本,本告警ID为135463086。V300R021C10及之后版本,本告警ID变更为303046425。在iMaster NCE-Campus从V300R021C00版本升级到后续版本后,所有在iMaster NCE-Campus V300R021C00版本已经上报的135463086当前告警都会被自动清除。
  • 处理步骤 检查配置是否正常。 请执行命令display interface brief查看Tunnel接口状态。 如果接口的物理协议状态为down,请保证链路正常。 如果接口的链路协议状态为down,请根据具体的原因处理。 检查IPSec隧道是否删除。 如果未删除,则无需处理。 检查总部Hub的NHRP映射表项状态Down是否为正常操作。 请执行命令display nhrp peer查看NHRP peer表信息。 如果为非正常操作,请联系技术支持人员。
  • 告警解释 NHRP/4/NHRPHUBDOWN: OID [OID] NHRP hub is down. (Interface=[interface-name], protocol-address=[protocol-address], mask=[mask], next-hop=[next-hop-address], nbma-address=[nbma-address]) 总部Hub的NHRP映射表项状态Down。
  • 监控指标 表1 DDS推荐的监控指标 指标ID 指标名称 指标含义 取值范围 测量对象 监控周期(原始指标) mongo007_connections_usage 当前活动连接数百分比 该指标用于统计试图连接到实例节点的连接数占可用连接数百分比,以百分比为单位。 0~100% 文档数据库集群实例下的dds mongos节点 文档数据库实例下的主节点 文档数据库实例下的备节点 1分钟 5秒 mongo032_mem_usage 内存使用率 该指标用于统计测量对象的内存利用率,以百分比为单位。 0~100% 文档数据库集群实例下的dds mongos节点 文档数据库实例下的主节点 文档数据库实例下的备节点 1分钟 5秒 mongo031_cpu_usage CPU使用率 该指标用于统计测量对象的CPU利用率,以百分比为单位。 0~100% 文档数据库集群实例下的dds mongos节点 文档数据库实例下的主节点 文档数据库实例下的备节点 1分钟 5秒 mongo035_disk_usage 磁盘利用率 该指标用于统计测量对象的磁盘利用率,以百分比为单位。 0~100% 文档数据库实例下的主节点 文档数据库实例下的备节点 1分钟 表2 DDS支持的监控指标 指标ID 指标名称 指标含义 取值范围 测量对象 监控周期(原始指标) mongo001_command_ps command执行频率 该指标用于统计平均每秒command语句在节点上执行次数,以次数/秒为单位。 ≥ 0 Executions/s 文档数据库实例 文档数据库集群实例下的dds mongos节点 文档数据库副本集实例下的只读节点 文档数据库实例下的主节点 文档数据库实例下的备节点 文档数据库实例下的隐藏节点 1分钟 5秒 mongo002_delete_ps delete语句执行频率 该指标用于统计平均每秒delete语句在节点上执行次数,以次数/秒为单位。 ≥ 0 Executions/s 文档数据库实例 文档数据库集群实例下的dds mongos节点 文档数据库实例下的主节点 文档数据库实例下的备节点 1分钟 5秒 mongo003_insert_ps insert语句执行频率 该指标用于统计平均每秒insert语句在节点上执行次数,以次数/秒为单位。 ≥ 0 Executions/s 文档数据库实例 文档数据库集群实例下的dds mongos节点 文档数据库实例下的主节点 文档数据库实例下的备节点 1分钟 5秒 mongo004_query_ps query语句执行频率 该指标用于统计平均每秒query语句在节点上执行次数,以次数/秒为单位。 ≥ 0 Executions/s 文档数据库实例 文档数据库集群实例下的dds mongos节点 文档数据库实例下的主节点 文档数据库实例下的备节点 1分钟 5秒 mongo005_update_ps update语句执行频率 该指标用于统计平均每秒update语句在节点上执行次数,以次数/秒为单位。 ≥ 0 Executions/s 文档数据库实例 文档数据库集群实例下的dds mongos节点 文档数据库实例下的主节点 文档数据库实例下的备节点 1分钟 5秒 mongo006_getmore_ps getmore语句执行频率 该指标用于统计平均每秒getmore语句在节点上执行次数,以次数/秒为单位。 ≥ 0 Executions/s 文档数据库实例 文档数据库集群实例下的dds mongos节点 文档数据库实例下的主节点 文档数据库实例下的备节点 1分钟 5秒 mongo007_chunk_num1 分片一的chunk数 该指标用于统计分片一的chunk个数,以个数为单位。 0~64 Counts 文档数据库集群实例 1分钟 mongo007_chunk_num2 分片二的chunk数 该指标用于统计分片二的chunk个数,以个数为单位。 0~64 Counts 文档数据库集群实例 1分钟 mongo007_chunk_num3 分片三的chunk数 该指标用于统计分片三的chunk个数,以个数为单位。 0~64 Counts 文档数据库集群实例 1分钟 mongo007_chunk_num4 分片四的chunk数 该指标用于统计分片四的chunk个数,以个数为单位。 0~64 Counts 文档数据库集群实例 1分钟 mongo007_chunk_num5 分片五的chunk数 该指标用于统计分片五的chunk个数,以个数为单位。 0~64 Counts 文档数据库集群实例 1分钟 mongo007_chunk_num6 分片六的chunk数 该指标用于统计分片六的chunk个数,以个数为单位。 0~64 Counts 文档数据库集群实例 1分钟 mongo007_chunk_num7 分片七的chunk数 该指标用于统计分片七的chunk个数,以个数为单位。 0~64 Counts 文档数据库集群实例 1分钟 mongo007_chunk_num8 分片八的chunk数 该指标用于统计分片八的chunk个数,以个数为单位。 0~64 Counts 文档数据库集群实例 1分钟 mongo007_chunk_num9 分片九的chunk数 该指标用于统计分片九的chunk个数,以个数为单位。 0~64 Counts 文档数据库集群实例 1分钟 mongo007_chunk_num10 分片十的chunk数 该指标用于统计分片十的chunk个数,以个数为单位。 0~64 Counts 文档数据库集群实例 1分钟 mongo007_chunk_num11 分片十一的chunk数 该指标用于统计分片十一的chunk个数,以个数为单位。 0~64 Counts 文档数据库集群实例 1分钟 mongo007_chunk_num12 分片十二的chunk数 该指标用于统计分片十二的chunk个数,以个数为单位。 0~64 Counts 文档数据库集群实例 1分钟 mongo008_connections 实例当前活动连接数 该指标用于统计试图连接到DDS实例的总连接数,以个数为单位。 0~200 Counts 文档数据库实例 1分钟 mongo009_migFail_num 过去一天块迁移的失败次数 该指标用于统计过去一天中块迁移失败的次数,以次数为单位。 ≥ 0 Counts 文档数据库集群实例 1分钟 mongo007_connections 当前活动连接数 该指标用于统计试图连接到DDS实例节点的总连接数,以个数为单位。 0~200 Counts 文档数据库集群实例下的dds mongos节点 文档数据库实例下的主节点 文档数据库实例下的备节点 1分钟 5秒 mongo007_connections_usage 当前活动连接数百分比 该指标用于统计试图连接到实例节点的连接数占可用连接数百分比,以百分比为单位。 0~100% 文档数据库集群实例下的dds mongos节点 文档数据库实例下的主节点 文档数据库实例下的备节点 1分钟 5秒 mongo008_mem_resident 驻留内存 该指标用于统计当前驻留内存的大小,以兆字节为单位。 ≥ 0 MB 文档数据库集群实例下的dds mongos节点 文档数据库实例下的主节点 文档数据库实例下的备节点 1分钟 mongo009_mem_virtual 虚拟内存 该指标用于统计当前虚拟内存的大小,以兆字节为单位。 ≥ 0 MB 文档数据库集群实例下的dds mongos节点 文档数据库实例下的主节点 文档数据库实例下的备节点 1分钟 mongo010_regular_asserts_ps 常规断言频率 该指标用于统计常规断言频率,以次数/秒为单位。 ≥ 0 Executions/s 文档数据库集群实例下的dds mongos节点 文档数据库实例下的主节点 文档数据库实例下的备节点 1分钟 mongo011_warning_asserts_ps 警告频率 该指标用于统计警告频率,以次数/秒为单位。 ≥ 0 Executions/s 文档数据库集群实例下的dds mongos节点 文档数据库实例下的主节点 文档数据库实例下的备节点 1分钟 mongo012_msg_asserts_ps 消息断言频率 该指标用于统计消息断言频率,以次数/秒为单位。 ≥ 0 Executions/s 文档数据库集群实例下的dds mongos节点 文档数据库实例下的主节点 文档数据库实例下的备节点 1分钟 mongo013_user_asserts_ps 用户断言频率 该指标用于统计用户断言频率,以次数/秒为单位。 ≥ 0 Executions/s 文档数据库集群实例下的dds mongos节点 文档数据库实例下的主节点 文档数据库实例下的备节点 1分钟 mongo014_queues_total 等待锁的操作数 该指标用于统计当前等待锁的操作数,以个数为单位。 ≥ 0 Counts 文档数据库实例下的主节点 文档数据库实例下的备节点 1分钟 mongo015_queues_readers 等待读锁的操作数 该指标用于统计当前等待读锁的操作数,以个数为单位。 ≥ 0 Counts 文档数据库实例下的主节点 文档数据库实例下的备节点 1分钟 mongo016_queues_writers 等待写锁的操作数 该指标用于统计当前等待写锁的操作数,以个数为单位。 ≥ 0 Counts 文档数据库实例下的主节点 文档数据库实例下的备节点 1分钟 mongo017_page_faults 缺页错误数 该指标用于统计当前节点上的缺页错误数,以个数为单位。 ≥ 0 Counts 文档数据库实例下的主节点 文档数据库实例下的备节点 1分钟 mongo018_porfling_num 慢查询数 该指标用于统计当前节点上的前5分钟到当前时间点的慢查询总数,以个数为单位。 ≥ 0 Counts 文档数据库实例下的主节点 文档数据库实例下的备节点 1分钟 mongo019_cursors_open 当前维护游标数 该指标用于统计当前节点上的维护游标数,以个数为单位。 ≥ 0 Counts 文档数据库实例下的主节点 文档数据库实例下的备节点 1分钟 mongo020_cursors_timeOut 服务超时游标数 该指标用于统计当前节点上的服务超时游标数,以个数为单位。 ≥ 0 Counts 文档数据库实例下的主节点 文档数据库实例下的备节点 1分钟 mongo021_wt_cahe_usage 内存中数据量(WiredTiger引擎) 该指标用于统计当前内存中数据量(WiredTiger引擎),以兆字节为单位。 ≥ 0 MB 文档数据库实例下的主节点 文档数据库实例下的备节点 1分钟 mongo022_wt_cahe_dirty 内存中脏数据量(WiredTiger引擎) 该指标用于统计当前内存中脏数据量(WiredTiger引擎),以兆字节为单位。 ≥ 0 MB 文档数据库实例下的主节点 文档数据库实例下的备节点 1分钟 mongo023_wInto_wtCache 写入WiredTiger内存的频率 该指标用于统计当前内存中写入频率(WiredTiger引擎),字节/秒为单位。 ≥ 0 Bytes/s 文档数据库实例下的主节点 文档数据库实例下的备节点 1分钟 mongo024_wFrom_wtCache 从WiredTiger内存写入磁盘频率 该指标用于统计当前内存写入磁盘频率(WiredTiger引擎),字节/秒为单位。 ≥ 0 Bytes/s 文档数据库实例下的主节点 文档数据库实例下的备节点 1分钟 mongo025_repl_oplog_win 主节点的Oplog中可用时间 该指标用于统计当前实例下的主节点的Oplog中可用时间,以小时为单位。 ≥ 0 Hours 文档数据库实例下的主节点 1分钟 mongo025_repl_headroom 主备Oplog重叠时长 该指标用于统计实例下的主节点和Secondary节点之间Oplog重叠时长,以秒为单位。 ≥ 0 Seconds 文档数据库实例下的备节点 1分钟 mongo026_repl_lag 主备延时 该指标用于统计实例下的主节点和Secondary节点之间的复制延时,以秒为单位。 ≥ 0 Seconds 文档数据库实例下的备节点 1分钟 mongo027_repl_command_ps 备节点复制的command执行频率 该指标用于统计平均每秒Secondary节点复制的command语句执行次数,以次/秒为单位。 ≥ 0 Executions/s 文档数据库实例下的备节点 1分钟 mongo028_repl_update_ps 备节点复制的update语句执行频率 该指标用于统计平均每秒Secondary节点复制的update语句执行次数,以次/秒为单位。 ≥ 0 Executions/s 文档数据库实例下的备节点 1分钟 mongo029_repl_delete_ps 备节点复制的delete语句执行频率 该指标用于统计平均每秒Secondary节点复制的delete语句执行次数,以次/秒为单位。 ≥ 0 Executions/s 文档数据库实例下的备节点 1分钟 mongo030_repl_insert_ps 备节点复制的insert语句执行频率 该指标用于统计平均每秒Secondary节点复制的insert语句执行次数,以次/秒为单位。 ≥ 0 Executions/s 文档数据库实例下的备节点 1分钟 mongo031_cpu_usage CPU使用率 该指标用于统计测量对象的CPU利用率,以百分比为单位。 0~100% 文档数据库集群实例下的dds mongos节点 文档数据库实例下的主节点 文档数据库实例下的备节点 1分钟 5秒 mongo032_mem_usage 内存使用率 该指标用于统计测量对象的内存利用率,以百分比为单位。 0~100% 文档数据库集群实例下的dds mongos节点 文档数据库实例下的主节点 文档数据库实例下的备节点 1分钟 5秒 mongo033_bytes_out 网络输出吞吐量 该指标用于统计平均每秒从测量对象的所有网络适配器输出的流量,以字节/秒为单位。 ≥ 0 Bytes/s 文档数据库集群实例下的dds mongos节点 文档数据库实例下的主节点 文档数据库实例下的备节点 1分钟 5秒 mongo034_bytes_in 网络输入吞吐量 该指标用于统计平均每秒从测量对象的所有网络适配器输入的流量,以字节/秒为单位。 ≥ 0 Bytes/s 文档数据库集群实例下的dds mongos节点 文档数据库实例下的主节点 文档数据库实例下的备节点 1分钟 5秒 mongo035_disk_usage 磁盘利用率 该指标用于统计测量对象的磁盘利用率,以百分比为单位。 0~100% 文档数据库实例下的主节点 文档数据库实例下的备节点 1分钟 mongo036_iops IOPS 该指标用于统计当前实例节点,单位时间内系统处理的I/O请求数量(平均值),以请求/秒为单位。 ≥ 0 Counts/s 文档数据库实例下的主节点 文档数据库实例下的备节点 1分钟 mongo037_read_throughput 硬盘读吞吐量 硬盘平均每秒读字节数,以字节/秒为单位。 ≥ 0 Bytes/s 文档数据库实例下的主节点 文档数据库实例下的备节点 1分钟 mongo038_write_throughput 硬盘写吞吐量 硬盘平均每秒写字节数,以字节/秒为单位。 ≥ 0 bytes/s 文档数据库实例下的主节点 文档数据库实例下的备节点 1分钟 mongo039_avg_disk_sec_per_read 硬盘读耗时 该指标用于统计某段时间平均每次读取硬盘所耗时间,以秒为单位。 ≥ 0 Seconds 文档数据库实例下的主节点 文档数据库实例下的备节点 1分钟 mongo040_avg_disk_sec_per_write 硬盘写耗时 该指标用于统计某段时间平均每次写入硬盘所耗时间,以秒为单位。 ≥ 0 Seconds 文档数据库实例下的主节点 文档数据库实例下的备节点 1分钟 mongo042_disk_total_size 磁盘总大小 该指标用于统计测量对象的磁盘总大小,以吉字节为单位。 0~1000 GB 文档数据库实例下的主节点 文档数据库实例下的备节点 1分钟 mongo043_disk_used_size 磁盘使用量 该指标用于统计测量对象的磁盘已使用总大小,以吉字节为单位。 0~1000 GB 文档数据库实例下的主节点 文档数据库实例下的备节点 1分钟 mongo044_swap_usage SWAP利用率 交换内存SWAP使用率百分数,以百分比为单位。 0~100% 文档数据库集群实例下的dds mongos节点 文档数据库实例下的备节点 1分钟 mongo050_top_total_time 集合花费的总时间 Mongotop-total time指标,集合操作花费的时间总和,以毫秒为单位。 ≥ 0 Milliseconds 文档数据库实例下的主节点 文档数据库实例下的备节点 1分钟 mongo051_top_read_time 集合读花费的总时间 Mongotop-read time指标,集合读操作花费的时间总和,以毫秒为单位。 ≥ 0 Milliseconds 文档数据库实例下的主节点 文档数据库实例下的备节点 1分钟 mongo052_top_write_time 集合写花费的总时间 Mongotop-write time指标,集合写操作花费的时间总和,以毫秒为单位。 ≥ 0 Milliseconds 文档数据库实例下的主节点 文档数据库实例下的备节点 1分钟 mongo053_wt_flushes_status 周期Checkpoint的触发次数 WiredTiger一个轮询间隔期间checkpoint的触发次数,记录周期内发生的次数单位。 ≥ 0 Counts 文档数据库实例下的主节点 文档数据库实例下的备节点 1分钟 mongo054_wt_cache_used_percent Wiredtiger使用中的缓存百分比 Wiredtiger使用中的缓存大小百分数,以百分比为单位。 0~100% 文档数据库实例下的主节点 文档数据库实例下的备节点 1分钟 mongo055_wt_cache_dirty_percent Wiredtiger脏数据的缓存百分比 Wiredtiger脏数据的缓存大小百分数,以百分比为单位。 0~100% 文档数据库实例下的主节点 文档数据库实例下的备节点 1分钟 mongo070_rocks_active_memtable memtable中的数据大小 采集当前活动memtable中的数据大小 0~100 GB 文档数据库实例下的主节点 文档数据库实例下的备节点 1分钟 mongo071_rocks_oplogcf_active_memtable oplogcf上memtable中的数据大小 采集当前用于oplogcf上活动memtable中的数据大小 0~100 GB 文档数据库实例下的主节点 文档数据库实例下的备节点 1分钟 mongo072_rocks_all_memtable memtable和immutable-mem中的总数据大小 采集当前memtable和immutable-mem中的总数据大小 0~100 GB 文档数据库实例下的主节点 文档数据库实例下的备节点 1分钟 mongo073_rocks_oplogcf_all_memtable oplogcf上memtable和immutable-mem中的总数据大小 采集当前用于oplogcf上memtable和immutable-mem中的总数据大小 0~100 GB 文档数据库实例下的主节点 文档数据库实例下的备节点 1分钟 mongo074_rocks_snapshots 未释放的snapshot的数量 采集当前未释放的snapshot的数量 ≥ 0 Counts 文档数据库实例下的主节点 文档数据库实例下的备节点 1分钟 mongo075_rocks_oplogcf_snapshots oplogcf上未释放的snapshot的数量 采集当前oplogcf上未释放的snapshot的数量 ≥ 0 Counts 文档数据库实例下的主节点 文档数据库实例下的备节点 1分钟 mongo076_rocks_live_versions 活动的版本数量 采集当前活动的版本数量 ≥ 0 Counts 文档数据库实例下的主节点 文档数据库实例下的备节点 1分钟 mongo077_rocks_oplogcf_live_versions oplogcf上活动的版本数量 采集当前oplogcf上活动的版本数量 ≥ 0 Counts 文档数据库实例下的主节点 文档数据库实例下的备节点 1分钟 mongo078_rocks_block_cache 驻留在blockcache中的数据大小 采集当前驻留在blockcache中的数据大小 0~100 GB 文档数据库实例下的主节点 文档数据库实例下的备节点 1分钟 mongo079_rocks_background_errors 后台累积错误数量 采集记录后台累积错误数量 ≥ 0 Counts 文档数据库实例下的主节点 文档数据库实例下的备节点 1分钟 mongo080_rocks_oplogcf_background_errors oplogcf上后台累积错误数量 采集记录oplogcf上后台累积错误数量 ≥ 0 Counts 文档数据库实例下的主节点 文档数据库实例下的备节点 1分钟 mongo081_rocks_conflict_bytes_usage 事务写写冲突处理缓冲区使用率 采集事务写中写冲突处理缓冲区使用率 0~100% 文档数据库实例下的主节点 文档数据库实例下的备节点 1分钟 mongo082_rocks_uncommitted_keys 未提交的key的数量 采集当前未提交的key的数量 ≥ 0 Counts 文档数据库实例下的主节点 文档数据库实例下的备节点 1分钟 mongo083_rocks_committed_keys 提交的key的数量 采集当前已提交的key的数量 ≥ 0 Counts 文档数据库实例下的主节点 文档数据库实例下的备节点 1分钟 mongo084_rocks_alive_txn 活跃事务链表的长度 采集记录活跃事务链表的长度 ≥ 0 Counts 文档数据库实例下的主节点 文档数据库实例下的备节点 1分钟 mongo085_rocks_read_queue 读队列的长度 采集当前读队列的长度 ≥ 0 Counts 文档数据库实例下的主节点 文档数据库实例下的备节点 1分钟 mongo086_rocks_commit_queue 提交队列的长度 采集当前提交队列的长度 ≥ 0 Counts 文档数据库实例下的主节点 文档数据库实例下的备节点 1分钟 mongo087_rocks_ct_write_out 已使用并发写事务数 采集当前已使用并发写事务数 ≥ 0 Counts 文档数据库实例下的主节点 文档数据库实例下的备节点 1分钟 mongo088_rocks_ct_write_available 剩余可用并发写事务数 采集当前剩余可用并发写事务数 ≥ 0 Counts 文档数据库实例下的主节点 文档数据库实例下的备节点 1分钟 mongo089_rocks_ct_read_out 已使用并发读事务数 采集当前已使用并发读事务数 ≥ 0 Counts 文档数据库实例下的主节点 文档数据库实例下的备节点 1分钟 mongo090_rocks_ct_read_available 剩余可用并发读事务数 采集当前剩余可用并发读事务数 ≥ 0 Counts 文档数据库实例下的主节点 文档数据库实例下的备节点 1分钟 mongo091_active_session_count 周期活跃会话数 该指标用于统计自上次刷新周期以来Mongo实例在内存中缓存的所有活跃本地会话的数目 ≥ 0 Counts 文档数据库实例 文档数据库副本集实例下的只读节点 文档数据库实例下的主节点 文档数据库实例下的备节点 文档数据库实例下的隐藏节点 1分钟 mongo092_rx_errors 接收报文错误率 该指标用于统计监控周期内接收报文中错误报文数量与全部接收报文比值。 0~100% 文档数据库实例 1分钟 5秒 mongo093_rx_dropped 接收报文丢包率 该指标用于监控周期内统计接收报文中丢失报文数量与全部接收报文比值。 0~100% 文档数据库实例 1分钟 5秒 mongo094_tx_errors 发送报文错误率 该指标用于监控周期内统计发送报文中错误报文数量与全部发送报文比值。 0~100% 文档数据库实例 1分钟 5秒 mongo095_tx_dropped 发送报文丢包率 该指标用于监控周期内统计发送报文中丢失报文数量与全部发送报文比值。 0~100% 文档数据库实例 1分钟 5秒 mongo096_retrans_segs 重传包数目 该指标用于监控周期内统计重传包数目。 ≥ 0 Counts 文档数据库实例 1分钟 5秒 mongo097_retrans_rate 重传比例 该指标用于监控周期内统计重传包比例。 0~100% 文档数据库实例 1分钟 5秒 mongo098_out_rsts_nums 发送RST数目 该指标用于监控周期内统计RST数目。 ≥ 0 Counts 文档数据库实例 1分钟 5秒 mongo099_read_time_average 读命令耗时平均值 该指标为单个节点的读命令耗时平均值 ≥ 0 Milliseconds 文档数据库实例 文档数据库副本集实例下的只读节点 文档数据库实例下的主节点 文档数据库实例下的备节点 文档数据库实例下的隐藏节点 1分钟 mongo100_read_time_p99 读命令p99耗时 该指标为单个节点的读命令p99耗时 ≥ 0 Milliseconds 文档数据库实例 文档数据库副本集实例下的只读节点 文档数据库实例下的主节点 文档数据库实例下的备节点 文档数据库实例下的隐藏节点 1分钟 mongo101_read_time_p999 读命令p999耗时 该指标为单个节点的读命令p999耗时 ≥ 0 Milliseconds 文档数据库实例 文档数据库副本集实例下的只读节点 文档数据库实例下的主节点 文档数据库实例下的备节点 文档数据库实例下的隐藏节点 1分钟 mongo102_write_time_average 写命令耗时平均值 该指标为单个节点的写命令耗时平均值 ≥ 0 Milliseconds 文档数据库实例 文档数据库副本集实例下的只读节点 文档数据库实例下的主节点 文档数据库实例下的备节点 文档数据库实例下的隐藏节点 1分钟 mongo103_write_time_p99 写命令p99耗时 该指标为单个节点的写命令p99耗时 ≥ 0 Milliseconds 文档数据库实例 文档数据库副本集实例下的只读节点 文档数据库实例下的主节点 文档数据库实例下的备节点 文档数据库实例下的隐藏节点 1分钟 mongo104_write_time_p999 写命令p999耗时 该指标为单个节点的写命令p999耗时 ≥ 0 Milliseconds 文档数据库实例 文档数据库副本集实例下的只读节点 文档数据库实例下的主节点 文档数据库实例下的备节点 文档数据库实例下的隐藏节点 1分钟 mongo105_command_time_average command耗时平均值 该指标为单个节点的节点command的耗时平均值 ≥ 0 Milliseconds 文档数据库实例 文档数据库副本集实例下的只读节点 文档数据库实例下的主节点 文档数据库实例下的备节点 文档数据库实例下的隐藏节点 1分钟 mongo106_command_time_p99 command p99耗时 该指标为单个节点的command耗时p99耗时 ≥ 0 Milliseconds 文档数据库实例 文档数据库副本集实例下的只读节点 文档数据库实例下的主节点 文档数据库实例下的备节点 文档数据库实例下的隐藏节点 1分钟 mongo107_command_time_p999 command p999耗时 该指标为单个节点的command耗时p999耗时 ≥ 0 Milliseconds 文档数据库实例 文档数据库副本集实例下的只读节点 文档数据库实例下的主节点 文档数据库实例下的备节点 文档数据库实例下的隐藏节点 1分钟 mongo108_txn_time_average 事务耗时平均值 该指标为单个节点的节点事务耗时平均值 ≥ 0 Milliseconds 文档数据库实例 文档数据库副本集实例下的只读节点 文档数据库实例下的主节点 文档数据库实例下的备节点 文档数据库实例下的隐藏节点 1分钟 mongo109_txn_time_p99 事务p99耗时 该指标为单个节点的事务p99耗时 ≥ 0 Milliseconds 文档数据库实例 文档数据库副本集实例下的只读节点 文档数据库实例下的主节点 文档数据库实例下的备节点 文档数据库实例下的隐藏节点 1分钟 mongo110_txn_time_p999 事务p999耗时 该指标为单个节点的事务p999耗时 ≥ 0 Milliseconds 文档数据库实例 文档数据库副本集实例下的只读节点 文档数据库实例下的主节点 文档数据库实例下的备节点 文档数据库实例下的隐藏节点 1分钟 指标ID中含有“rocks”的监控指标均用于监测4.2版本的实例或实例节点。
  • 参考信息 相关参数获取方法如下: MRS 2.x及以前版本: 当前慢盘故障告警的检查原理为: 在Linux平台上判断IO是否存在问题,输入命令iostat -x -t 1,观察svctm的值(如图所示红色框中的部分)。 svctm值表示该磁盘IO服务时间。 MRS 1.9.3.10及之后的补丁版本: svctm的获取方法: svctm = (tot_ticks_new - tot_ticks_old) / (rd_ios_new + wr_ios_new - rd_ios_old - wr_ios_old) 当检测周期粒度为30秒时,如果rd_ios_new + wr_ios_new - rd_ios_old - wr_ios_old = 0,则svctm = 0。 当检测周期粒度为300秒时,在rd_ios_new + wr_ios_new - rd_ios_old - wr_ios_old = 0的情况下,如果tot_ticks_new - tot_ticks_old = 0则svctm = 0,否则svctm值为无穷大。 参数获取如下: 系统每3秒执行一次cat /proc/diskstats命令采集数据。例如: 连续两次采集的数据中: 第一次采集的数据中,第4列的数字是“rd_ios_old”,第8列的数字是“wr_ios_old”,第13列的数字是“tot_ticks_old”。 第二次采集的数据中,第4列的数字是“rd_ios_new”,第8列的数字是“wr_ios_new”,第13列的数字是“tot_ticks_new”。 则上图中svctm值为: (19571460 - 19569526) / (1101553 + 28747977 - 1101553 - 28744856) = 0.6197
  • 告警解释 MRS 2.x及以前版本: 对于HDD盘,满足以下任意条件时触发告警: 系统每3秒执行一次iostat命令,在30秒内连续10周期svctm值超过1000ms。 系统每3秒执行一次iostat命令,在300秒内有超过60%的IO超过150ms。 对于SSD盘,满足以下任意条件时触发告警: 系统每3秒执行一次iostat命令,在30秒内连续10周期svctm值超过1000ms。 系统每3秒执行一次iostat命令,在300秒内有超过60%的IO超过20ms。 当系统连续15分钟不满足以上所有条件时,告警自动清除。 MRS 1.9.3.10及之后的补丁的版本: 对于HDD盘,满足以下任意条件时触发告警: 系统默认每3秒采集一次数据,在30秒内至少7个采集周期的svctm时延达到1000ms。 系统默认每3秒采集一次数据,在300秒内至少50%次采集到的svctm时延达到150ms。 对于SSD盘,满足以下任意条件时触发告警: 系统默认每3秒采集一次数据,在30秒内至少7个周期的svctm时延达到1000ms。 系统默认每3秒采集一次数据,在300秒内至少50%次检测到的svctm时延达到20ms。 系统采集周期为3秒,检测周期为30秒或300秒,当系统连续3个30秒、300秒的周期均不满足以上条件时,告警自动清除。 相关参数获取方法请参考参考信息。
  • 监控指标参考(MRS 3.x及之后版本) FusionInsight Manager转告警监控指标可分为节点信息指标与集群服务指标。表3表示节点中可配置阈值的指标、表4表示组件可配置阈值的指标。 MRS 3.3.0及之后版本的Manager界面中,部分组件告警支持分级上报告警,不同告警级别对应阈值不同,具体以Manager实际配置界面为准。 表3 节点信息监控指标转告警列表 监控指标组名称 监控指标名称 指标含义 默认阈值 CPU 主机CPU使用率 描述周期内当前集群的运算和控制能力,可通过观察该统计值,了解集群整体资源的使用情况。 90.0% 磁盘 磁盘使用率 描述主机磁盘的使用率。 90.0% 磁盘inode使用率 统计采集周期内磁盘inode使用率。 80.0% 内存 主机内存使用率 统计当前时间点的内存平均使用率。 90.0% 主机状态 主机文件句柄使用率 统计采集周期内该主机的文件句柄使用率。 80.0% 主机PID使用率 主机PID使用率。 90% 网络状态 TCP临时端口使用率 统计采集周期内该主机的TCP临时端口使用率。 80.0% 网络读信息 读包错误率 统计采集周期内该主机上该网口的读包错误率。 0.5% 读包丢包率 统计采集周期内该主机上该网口的读包丢包率。 0.5% 读吞吐率 统计周期内网口的平均读吞吐率(MAC层)。 80% 网络写信息 写包错误率 统计采集周期内该主机上该网口的写包错误率。 0.5% 写包丢包率 统计采集周期内该主机上该网口的写包丢包率。 0.5% 写吞吐率 统计周期内网口的平均写吞吐率(MAC层)。 80% 进程 D状态进程总数 统计周期内主机上D状态进程数量。 0 omm进程使用率 统计周期内omm进程使用率。 90 表4 集群监控指标转告警列表 服务 监控指标组名称 监控指标名称 指标含义 默认阈值 DBService 数据库 数据库连接数使用率 数据库连接数使用率统计。 90% 数据目录磁盘空间使用率 数据目录磁盘空间使用率统计。 80% Flume Agent Flume堆内存使用率 Flume堆内存使用百分比统计。 95.0% Flume直接内存使用率 Flume直接内存使用百分比统计。 80.0% Flume非堆内存使用率 Flume非堆内存使用百分比统计。 80.0% Flume垃圾回收(GC)总时间 Flume垃圾回收(GC)总时间。 12000ms HBase GC GC中回收old区所花时长 RegionServer的总GC时间。 5000ms GC中回收old区所花时长 HMaster的总GC时间。 5000ms CPU和内存 RegionServer直接内存使用率统计 RegionServer直接内存使用率统计。 90% RegionServer堆内存使用率统计 RegionServer堆内存使用率统计。 90% HMaster直接内存使用率统计 HMaster直接内存使用率统计。 90% HMaster堆内存使用率统计 HMaster堆内存使用率统计。 90% 服务 单个RegionServer的region数目 单个RegionServer的Region数目。 2000 处在RIT状态达到阈值时长的region数 处在RIT状态达到阈值时长的region数。 1 容灾 容灾同步失败次数 同步容灾数据失败次数。 1 主集群等待同步的日志文件数量 主集群等待同步的日志文件数量。 128 主集群等待同步的HFile文件数量 主集群等待同步的HFile文件数量。 128 队列 Compaction操作队列大小 Compaction操作队列大小。 100 HDFS 文件和块 HDFS缺失的块数量 HDFS文件系统中缺少副本块数量。 0 需要复制副本的块总数 NameNode需要复制副本的块总数。 1000 RPC 主NameNode RPC处理平均时间 NameNode RPC处理平均时间。 100ms 主NameNode RPC队列平均时间 NameNode RPC队列平均时间。 200ms 磁盘 HDFS磁盘空间使用率 HDFS磁盘空间使用率。 80% DataNode磁盘空间使用率 HDFS文件系统中DataNode可以使用的磁盘空间率。 80% 总副本预留磁盘空间所占比率 总副本预留磁盘空间占DataNode总未使用磁盘空间的百分比。 90% 资源 故障的DataNode总数 出故障的DataNode节点数量。 3 NameNode非堆内存使用百分比统计 NameNode非堆内存使用百分比统计。 90% NameNode直接内存使用百分比统计 NameNode直接内存使用百分比统计。 90% NameNode堆内存使用百分比统计 NameNode堆内存使用百分比统计。 95% DataNode直接内存使用百分比统计 DataNode直接内存使用百分比统计。 90% DataNode堆内存使用百分比统计 DataNode堆内存使用百分比统计。 95% DataNode非堆内存使用百分比统计 DataNode非堆内存使用百分比统计。 90% 垃圾回收 垃圾回收时间统计(GC) NameNode每分钟的垃圾回收(GC)所占用的时间。 12000ms 垃圾回收时间统计(GC) DataNode每分钟的垃圾回收(GC)所占用的时间。 12000ms Hive HQL Hive执行成功的HQL百分比 Hive执行成功的HQL百分比。 90.0% Background Background线程使用率 Background线程使用率。 90% GC MetaStore的总GC时间 MetaStore的总GC时间。 12000ms HiveServer的总GC时间 HiveServer的总GC时间。 12000ms 容量 Hive已经使用的HDFS空间占可使用空间的百分比 Hive已经使用的HDFS空间占可使用空间的百分比。 85.0% CPU和内存 MetaStore直接内存使用率统计 MetaStore直接内存使用率统计。 95% MetaStore非堆内存使用率统计 MetaStore非堆内存使用率统计。 95% MetaStore堆内存使用率统计 MetaStore堆内存使用率统计。 95% HiveServer直接内存使用率统计 HiveServer直接内存使用率统计。 95% HiveServer非堆内存使用率统计 HiveServer非堆内存使用率统计。 95% HiveServer堆内存使用率统计 HiveServer堆内存使用率统计。 95% Session 连接到HiveServer的session数占最大允许session数的百分比 连接到HiveServer的session数占最大允许session数的百分比。 90.0% Kafka 分区 未完全同步的Partition百分比 未完全同步的Partition数占Partition总数的百分比。 50% 其他 Partition不可用百分比 Kafka各个Topic的Partition不可用占比。 40% broker上用户连接数使用率 broker上用户连接数使用率。 80% 磁盘 Broker磁盘使用率 Broker数据目录所在磁盘的磁盘使用率。 80.0% Broker磁盘IO使用率 Broker数据目录所在磁盘的磁盘IO使用率。 80% 进程 Broker每分钟的垃圾回收时间统计(GC) Broker进程每分钟垃圾回收(GC)所占用的时间。 12000ms Kafka堆内存使用率 Kafka堆内存使用百分比统计。 95% Kafka直接内存使用率 Kafka直接内存使用百分比统计。 95% Loader 内存 Loader堆内存使用率 Loader堆内存使用率。 95% Loader直接内存使用率统计 Loader直接内存使用率统计。 80.0% Loader非堆内存使用率 Loader非堆内存使用率。 80% GC Loader的总GC时间 Loader的总GC时间。 12000ms Mapreduce 垃圾回收 垃圾回收时间统计(GC) 垃圾回收时间统计(GC)。 12000ms 资源 JobHistoryServer直接内存使用百分比统计 JobHistoryServer直接内存使用百分比统计。 90% JobHistoryServer非堆内存使用百分比统计 JobHistoryServer非堆内存使用百分比统计。 90% JobHistoryServer堆内存使用百分比统计 JobHistoryServer堆内存使用百分比统计。 95% Oozie 内存 Oozie堆内存使用率 Oozie堆内存使用率。 95.0% Oozie直接内存使用率 Oozie直接内存使用率。 80.0% Oozie非堆内存使用率 Oozie非堆内存使用率。 80% GC Oozie垃圾回收(GC)总时间 Oozie垃圾回收(GC)总时间。 12000ms Spark/Spark2x 内存 JD BCS erver2x堆内存使用率统计 JDB CS erver2x堆内存使用率统计。 95% JDBCServer2x直接内存使用率统计 JDBCServer2x直接内存使用率统计。 95% JDBCServer2x非堆内存使用率统计 JDBCServer2x非堆内存使用率统计 95% JobHistory2x直接内存使用率统计 JobHistory2x直接内存使用率统计。 95% JobHistory2x非堆内存使用率统计 JobHistory2x非堆内存使用率统计。 95% JobHistory2x堆内存使用率统计 JobHistory2x堆内存使用率统计。 95% IndexServer2x直接内存使用率统计 IndexServer2x直接内存使用率统计。 95% IndexServer2x堆内存使用率统计 IndexServer2x堆内存使用率统计。 95% IndexServer2x非堆内存使用率统计 IndexServer2x非堆内存使用率统计。 95% GC次数 JDBCServer2x的Full GC次数 JDBCServer2x进程的Full GC次数。 12 JobHistory2x的Full GC次数 JobHistory2x进程的Full GC次数。 12 IndexServer2x的Full GC次数 IndexServer2x进程的Full GC次数。 12 GC时间 JDBCServer2x的总GC时间 JDBCServer2x的总GC时间。 12000ms JobHistory2x的总GC时间 JobHistory2x的总GC时间。 12000ms IndexServer2x的总GC时间 IndexServer2x的总GC时间。 12000ms Storm 集群 Supervisor数 统计周期内集群中可用的Supervisor数目。 1 已用Slot比率 统计周期内集群中可用的slot使用率。 80.0% Nimbus Nimbus堆内存使用率 Nimbus堆内存使用百分比统计。 80% Yarn 资源 NodeManager直接内存使用百分比统计 NodeManager直接内存使用百分比统计。 90% NodeManager堆内存使用百分比统计 NodeManager堆内存使用百分比统计。 95% NodeManager非堆内存使用百分比统计 NodeManager非堆内存使用百分比统计。 90% ResourceManager直接内存使用百分比统计 ResourceManager直接内存使用百分比统计。 90% ResourceManager堆内存使用百分比统计 ResourceManager堆内存使用百分比统计。 95% ResourceManager非堆内存使用百分比统计 ResourceManager非堆内存使用百分比统计。 90% 垃圾回收 垃圾回收时间统计(GC) NodeManager每分钟的垃圾回收(GC)所占用的时间。 12000ms 垃圾回收时间统计(GC) ResourceManager每分钟的垃圾回收(GC)所占用的时间。 12000ms 其他 root队列下失败的任务数 root队列下失败的任务数。 50 root队列下被杀死的任务数 root队列下被杀死的任务数。 50 CPU和内存 挂起的内存量 挂起的内存量。 83886080MB 任务 正在挂起的任务 正在挂起的任务。 60 ZooKeeper 连接 ZooKeeper连接数使用率 ZooKeeper连接数使用百分比统计。 80% CPU和内存 ZooKeeper堆内存使用率 ZooKeeper堆内存使用百分比统计。 95% ZooKeeper直接内存使用率 ZooKeeper直接内存使用百分比统计。 80% GC ZooKeeper每分钟的垃圾回收时间统计(GC) ZooKeeper每分钟的垃圾回收时间统计(GC)。 12000ms Ranger GC UserSync垃圾回收(GC)时间 UserSync垃圾回收(GC)时间。 12000ms RangerAdmin垃圾回收(GC)时间 RangerAdmin垃圾回收(GC)时间。 12000ms TagSync垃圾回收(GC)时间 TagSync垃圾回收(GC)时间。 12000ms CPU和内存 UserSync非堆内存使用率 UserSync非堆内存使用百分比统计。 80.0% UserSync直接内存使用率 UserSync直接内存使用百分比统计。 80.0% UserSync堆内存使用率 UserSync堆内存使用百分比统计。 95.0% RangerAdmin非堆内存使用率 RangerAdmin非堆内存使用百分比统计。 80.0% RangerAdmin堆内存使用率 RangerAdmin堆内存使用百分比统计。 95.0% RangerAdmin直接内存使用率 RangerAdmin直接内存使用百分比统计。 80.0% TagSync直接内存使用率 TagSync直接内存使用百分比统计。 80.0% TagSync非堆内存使用率 TagSync非堆内存使用百分比统计。 80.0% TagSync堆内存使用率 TagSync堆内存使用百分比统计。 95.0% ClickHouse 集群配额 Clickhouse服务在ZooKeeper的数量配额使用率 ClickHouse服务在ZooKeeper上目录的数量配额使用百分比。 90% Clickhouse服务在ZooKeeper的容量配额使用率 ClickHouse服务在ZooKeeper上目录的容量配额使用百分比。 90% IoTDB GC IoTDBServer垃圾回收时间 IoTDBServer垃圾回收所占用的时间 12000ms CPU和内存 IoTDBServer堆内存使用率 IoTDBServer堆内存使用百分比统计 90% IoTDBServer直接内存使用率 IoTDBServer直接内存使用百分比统计 90%
  • 配置MRS集群告警阈值(MRS 2.x及之前版本) 在MRS Manager,单击“系统设置”。 在“配置”区域“监控和告警配置”下,单击“阈值配置”,依据规划选择监控指标并设置其基线。 单击某一指标例如“CPU使用率”,单击“添加规则”。 在“配置”对话框中填写监控指标规则参数。 表2 监控指标规则参数 参数名 参数解释 参数示例 规则名称 规则名称 CPU_MAX 参考日期 查看某指标的历史参考数据 2014/11/06 阈值类型 选择某指标的最大值或最小值,类型为“最大值”表示指标的实际值大于设置的阈值时系统将产生告警,类型为“最小值”表示指标的实际值小于设置的阈值时系统将产生告警。 最大值 告警级别 告警级别,包括: 致命 严重 一般 提示 重要 时间范围 设置规则生效时监控指标的具体时间段 从00:00到23:59 阈值 设置规则监控指标的阈值 设置数值80 日期 设置规则生效的日期类型,包括: 工作日 周末 其它 工作日 添加日期 日期选择“其他”时该参数生效。可选择多个日期。 11/30 单击“确定”。界面右上角弹出提示“模板保存成功。”。 “发送告警”默认已勾选。Manager会检查监控指标数值是否满足阈值条件,若连续检查且不满足的次数等于“平滑次数”设置的值则发送告警,支持自定义。“检查周期(秒)”表示Manager检查监控指标的时间间隔。 在新添加规则所在的行,单击“操作”下的“应用”,界面右上角弹出提示规则xx应用成功,完成添加。单击“操作”下的“取消应用”,界面右上角弹出提示规则xx取消成功。
  • 请求示例 HTTP的示例 POST /v1/perfservice/alarms/shield-alarms/white-list HTTP/1.1 Host: 192.168.1.125:18002 Content-Type: application/json Accept: application/json Accept-Language: en-US X-ACCESS-TOKEN: x-yyyyyy { "alarmIds" : [ "" ] }
  • 响应参数 返回状态码为200:创建告警屏蔽规则成功后的状态返回码。 表3 CommonOut对象的参数列表 参数名称 类型 参数值域 默认值 参数说明 参数示例 errcode string 0~256个字符。 - 错误码。 "0" errmsg string 0~256个字符。 - 错误信息。 "" 返回状态码为400:接口入参非法的状态返回码。 详细信息请参见实际响应消息体。 返回状态码为500:接口发生内部错误后的状态返回码。 详细信息请参见实际响应消息体。
  • 响应示例 返回状态码为200:创建告警屏蔽规则成功后的状态返回码。 HTTP/1.1 200 OK Date: Sun,16 Feb 2025 10:00:00 GMT Server: example-server Content-Type: application/json;charset=UTF-8 Content-Length: 250 Connection: keep-alive { "errcode" : "0", "errmsg" : "" } 返回状态码为400:接口入参非法的状态返回码。 HTTP/1.1 400 Bad Request Date: Sun,16 Feb 2025 10:00:00 GMT Server: example-server Content-Type: application/json;charset=UTF-8 Content-Length: 250 Connection: keep-alive 返回状态码为500:接口发生内部错误后的状态返回码。 HTTP/1.1 500 Internal Server Error Date: Sun,16 Feb 2025 10:00:00 GMT Server: example-server Content-Type: application/json;charset=UTF-8 Content-Length: 250 Connection: keep-alive