MAPREDUCE服务 MRS-配置告警阈值:监控指标参考

时间:2023-11-21 15:28:18

监控指标参考

FusionInsight Manager转告警监控指标可分为节点信息指标与集群服务指标。表2表示节点中可配置阈值的指标、表3表示组件可配置阈值的指标。

MRS 3.3.0及之后版本的Manager界面中,部分组件告警支持分级上报告警,不同告警级别对应阈值不同,具体以Manager实际配置界面为准。

表2 节点信息监控指标转告警列表

监控指标组名称

监控指标名称

指标含义

默认阈值

CPU

主机CPU使用率

描述周期内当前集群的运算和控制能力,可通过观察该统计值,了解集群整体资源的使用情况。

90.0%

磁盘

磁盘使用率

描述主机磁盘的使用率。

90.0%

磁盘inode使用率

统计采集周期内磁盘inode使用率。

80.0%

内存

主机内存使用率

统计当前时间点的内存平均使用率。

90.0%

主机状态

主机文件句柄使用率

统计采集周期内该主机的文件句柄使用率。

80.0%

主机PID使用率

主机PID使用率。

90%

网络状态

TCP临时端口使用率

统计采集周期内该主机的TCP临时端口使用率。

80.0%

网络读信息

读包错误率

统计采集周期内该主机上该网口的读包错误率。

0.5%

读包丢包率

统计采集周期内该主机上该网口的读包丢包率。

0.5%

读吞吐率

统计周期内网口的平均读吞吐率(MAC层)。

80%

网络写信息

写包错误率

统计采集周期内该主机上该网口的写包错误率。

0.5%

写包丢包率

统计采集周期内该主机上该网口的写包丢包率。

0.5%

写吞吐率

统计周期内网口的平均写吞吐率(MAC层)。

80%

进程

D状态进程总数

统计周期内主机上D状态进程数量。

0

omm进程使用率

统计周期内omm进程使用率。

90

表3 集群监控指标转告警列表

服务

监控指标组名称

监控指标名称

指标含义

默认阈值

DBService

数据库

数据库连接数使用率

数据库连接数使用率统计。

90%

数据目录磁盘空间使用率

数据目录磁盘空间使用率统计。

80%

Flume

Agent

Flume堆内存使用率

Flume堆内存使用百分比统计。

95.0%

Flume直接内存使用率

Flume直接内存使用百分比统计。

80.0%

Flume非堆内存使用率

Flume非堆内存使用百分比统计。

80.0%

Flume垃圾回收(GC)总时间

Flume垃圾回收(GC)总时间。

12000ms

HBase

GC

GC中回收old区所花时长

RegionServer的总GC时间。

5000ms

GC中回收old区所花时长

HMaster的总GC时间。

5000ms

CPU和内存

RegionServer直接内存使用率统计

RegionServer直接内存使用率统计。

90%

RegionServer堆内存使用率统计

RegionServer堆内存使用率统计。

90%

HMaster直接内存使用率统计

HMaster直接内存使用率统计。

90%

HMaster堆内存使用率统计

HMaster堆内存使用率统计。

90%

服务

单个RegionServer的region数目

单个RegionServer的Region数目。

2000

处在RIT状态达到阈值时长的region数

处在RIT状态达到阈值时长的region数。

1

容灾

容灾同步失败次数

同步容灾数据失败次数。

1

主集群等待同步的日志文件数量

主集群等待同步的日志文件数量。

128

主集群等待同步的HFile文件数量

主集群等待同步的HFile文件数量。

128

队列

Compaction操作队列大小

Compaction操作队列大小。

100

HDFS

文件和块

HDFS缺失的块数量

HDFS文件系统中缺少副本块数量。

0

需要复制副本的块总数

NameNode需要复制副本的块总数。

1000

RPC

主NameNode RPC处理平均时间

NameNode RPC处理平均时间。

100ms

主NameNode RPC队列平均时间

NameNode RPC队列平均时间。

200ms

磁盘

HDFS磁盘空间使用率

HDFS磁盘空间使用率。

80%

DataNode磁盘空间使用率

HDFS文件系统中DataNode可以使用的磁盘空间率。

80%

总副本预留磁盘空间所占比率

总副本预留磁盘空间占DataNode总未使用磁盘空间的百分比。

90%

资源

故障的DataNode总数

出故障的DataNode节点数量。

3

NameNode非堆内存使用百分比统计

NameNode非堆内存使用百分比统计。

90%

NameNode直接内存使用百分比统计

NameNode直接内存使用百分比统计。

90%

NameNode堆内存使用百分比统计

NameNode堆内存使用百分比统计。

95%

DataNode直接内存使用百分比统计

DataNode直接内存使用百分比统计。

90%

DataNode堆内存使用百分比统计

DataNode堆内存使用百分比统计。

95%

DataNode非堆内存使用百分比统计

DataNode非堆内存使用百分比统计。

90%

垃圾回收

垃圾回收时间统计(GC)

NameNode每分钟的垃圾回收(GC)所占用的时间。

12000ms

垃圾回收时间统计(GC)

DataNode每分钟的垃圾回收(GC)所占用的时间。

12000ms

Hive

HQL

Hive执行成功的HQL百分比

Hive执行成功的HQL百分比。

90.0%

Background

Background线程使用率

Background线程使用率。

90%

GC

MetaStore的总GC时间

MetaStore的总GC时间。

12000ms

HiveServer的总GC时间

HiveServer的总GC时间。

12000ms

容量

Hive已经使用的HDFS空间占可使用空间的百分比

Hive已经使用的HDFS空间占可使用空间的百分比。

85.0%

CPU和内存

MetaStore直接内存使用率统计

MetaStore直接内存使用率统计。

95%

MetaStore非堆内存使用率统计

MetaStore非堆内存使用率统计。

95%

MetaStore堆内存使用率统计

MetaStore堆内存使用率统计。

95%

HiveServer直接内存使用率统计

HiveServer直接内存使用率统计。

95%

HiveServer非堆内存使用率统计

HiveServer非堆内存使用率统计。

95%

HiveServer堆内存使用率统计

HiveServer堆内存使用率统计。

95%

Session

连接到HiveServer的session数占最大允许session数的百分比

连接到HiveServer的session数占最大允许session数的百分比。

90.0%

Kafka

分区

未完全同步的Partition百分比

未完全同步的Partition数占Partition总数的百分比。

50%

其他

Partition不可用百分比

Kafka各个Topic的Partition不可用占比。

40%

broker上用户连接数使用率

broker上用户连接数使用率。

80%

磁盘

Broker磁盘使用率

Broker数据目录所在磁盘的磁盘使用率。

80.0%

Broker磁盘IO使用率

Broker数据目录所在磁盘的磁盘IO使用率。

80%

进程

Broker每分钟的垃圾回收时间统计(GC)

Broker进程每分钟垃圾回收(GC)所占用的时间。

12000ms

Kafka堆内存使用率

Kafka堆内存使用百分比统计。

95%

Kafka直接内存使用率

Kafka直接内存使用百分比统计。

95%

Loader

内存

Loader堆内存使用率

Loader堆内存使用率。

95%

Loader直接内存使用率统计

Loader直接内存使用率统计。

80.0%

Loader非堆内存使用率

Loader非堆内存使用率。

80%

GC

Loader的总GC时间

Loader的总GC时间。

12000ms

Mapreduce

垃圾回收

垃圾回收时间统计(GC)

垃圾回收时间统计(GC)。

12000ms

资源

JobHistoryServer直接内存使用百分比统计

JobHistoryServer直接内存使用百分比统计。

90%

JobHistoryServer非堆内存使用百分比统计

JobHistoryServer非堆内存使用百分比统计。

90%

JobHistoryServer堆内存使用百分比统计

JobHistoryServer堆内存使用百分比统计。

95%

Oozie

内存

Oozie堆内存使用率

Oozie堆内存使用率。

95.0%

Oozie直接内存使用率

Oozie直接内存使用率。

80.0%

Oozie非堆内存使用率

Oozie非堆内存使用率。

80%

GC

Oozie垃圾回收(GC)总时间

Oozie垃圾回收(GC)总时间。

12000ms

Spark/Spark2x

内存

JD BCS erver2x堆内存使用率统计

JDB CS erver2x堆内存使用率统计。

95%

JDBCServer2x直接内存使用率统计

JDBCServer2x直接内存使用率统计。

95%

JDBCServer2x非堆内存使用率统计

JDBCServer2x非堆内存使用率统计

95%

JobHistory2x直接内存使用率统计

JobHistory2x直接内存使用率统计。

95%

JobHistory2x非堆内存使用率统计

JobHistory2x非堆内存使用率统计。

95%

JobHistory2x堆内存使用率统计

JobHistory2x堆内存使用率统计。

95%

IndexServer2x直接内存使用率统计

IndexServer2x直接内存使用率统计。

95%

IndexServer2x堆内存使用率统计

IndexServer2x堆内存使用率统计。

95%

IndexServer2x非堆内存使用率统计

IndexServer2x非堆内存使用率统计。

95%

GC次数

JDBCServer2x的Full GC次数

JDBCServer2x进程的Full GC次数。

12

JobHistory2x的Full GC次数

JobHistory2x进程的Full GC次数。

12

IndexServer2x的Full GC次数

IndexServer2x进程的Full GC次数。

12

GC时间

JDBCServer2x的总GC时间

JDBCServer2x的总GC时间。

12000ms

JobHistory2x的总GC时间

JobHistory2x的总GC时间。

12000ms

IndexServer2x的总GC时间

IndexServer2x的总GC时间。

12000ms

Storm

集群

Supervisor数

统计周期内集群中可用的Supervisor数目。

1

已用Slot比率

统计周期内集群中可用的slot使用率。

80.0%

Nimbus

Nimbus堆内存使用率

Nimbus堆内存使用百分比统计。

80%

Yarn

资源

NodeManager直接内存使用百分比统计

NodeManager直接内存使用百分比统计。

90%

NodeManager堆内存使用百分比统计

NodeManager堆内存使用百分比统计。

95%

NodeManager非堆内存使用百分比统计

NodeManager非堆内存使用百分比统计。

90%

ResourceManager直接内存使用百分比统计

ResourceManager直接内存使用百分比统计。

90%

ResourceManager堆内存使用百分比统计

ResourceManager堆内存使用百分比统计。

95%

ResourceManager非堆内存使用百分比统计

ResourceManager非堆内存使用百分比统计。

90%

垃圾回收

垃圾回收时间统计(GC)

NodeManager每分钟的垃圾回收(GC)所占用的时间。

12000ms

垃圾回收时间统计(GC)

ResourceManager每分钟的垃圾回收(GC)所占用的时间。

12000ms

其他

root队列下失败的任务数

root队列下失败的任务数。

50

root队列下被杀死的任务数

root队列下被杀死的任务数。

50

CPU和内存

挂起的内存量

挂起的内存量。

83886080MB

任务

正在挂起的任务

正在挂起的任务。

60

ZooKeeper

连接

ZooKeeper连接数使用率

ZooKeeper连接数使用百分比统计。

80%

CPU和内存

ZooKeeper堆内存使用率

ZooKeeper堆内存使用百分比统计。

95%

ZooKeeper直接内存使用率

ZooKeeper直接内存使用百分比统计。

80%

GC

ZooKeeper每分钟的垃圾回收时间统计(GC)

ZooKeeper每分钟的垃圾回收时间统计(GC)。

12000ms

Ranger

GC

UserSync垃圾回收(GC)时间

UserSync垃圾回收(GC)时间。

12000ms

RangerAdmin垃圾回收(GC)时间

RangerAdmin垃圾回收(GC)时间。

12000ms

TagSync垃圾回收(GC)时间

TagSync垃圾回收(GC)时间。

12000ms

CPU和内存

UserSync非堆内存使用率

UserSync非堆内存使用百分比统计。

80.0%

UserSync直接内存使用率

UserSync直接内存使用百分比统计。

80.0%

UserSync堆内存使用率

UserSync堆内存使用百分比统计。

95.0%

RangerAdmin非堆内存使用率

RangerAdmin非堆内存使用百分比统计。

80.0%

RangerAdmin堆内存使用率

RangerAdmin堆内存使用百分比统计。

95.0%

RangerAdmin直接内存使用率

RangerAdmin直接内存使用百分比统计。

80.0%

TagSync直接内存使用率

TagSync直接内存使用百分比统计。

80.0%

TagSync非堆内存使用率

TagSync非堆内存使用百分比统计。

80.0%

TagSync堆内存使用率

TagSync堆内存使用百分比统计。

95.0%

ClickHouse

集群配额

Clickhouse服务在ZooKeeper的数量配额使用率

ClickHouse服务在ZooKeeper上目录的数量配额使用百分比。

90%

Clickhouse服务在ZooKeeper的容量配额使用率

ClickHouse服务在ZooKeeper上目录的容量配额使用百分比。

90%

IoTDB

GC

IoTDBServer垃圾回收时间

IoTDBServer垃圾回收所占用的时间

12000ms

CPU和内存

IoTDBServer堆内存使用率

IoTDBServer堆内存使用百分比统计

90%

IoTDBServer直接内存使用率

IoTDBServer直接内存使用百分比统计

90%

support.huaweicloud.com/usermanual-mrs/admin_guide_000071.html