云服务器内容精选

华为云首页用户手册

查看与配置MRS告警事件

MAPREDUCE服务 MRS-配置MRS集群告警阈值:监控指标参考（MRS 3.x及之后版本）

监控指标参考（ MRS 3.x及之后版本） FusionInsight Manager转告警监控指标可分为节点信息指标与集群服务指标。表3表示节点中可配置阈值的指标、表4表示组件可配置阈值的指标。 MRS 3.3.0及之后版本的Manager界面中，部分组件告警支持分级上报告警，不同告警级别对应阈值不同，具体以Manager实际配置界面为准。表3 节点信息监控指标转告警列表监控指标组名称监控指标名称指标含义默认阈值 CPU 主机CPU使用率描述周期内当前集群的运算和控制能力，可通过观察该统计值，了解集群整体资源的使用情况。 90.0% 磁盘磁盘使用率描述主机磁盘的使用率。 90.0% 磁盘inode使用率统计采集周期内磁盘inode使用率。 80.0% 内存主机内存使用率统计当前时间点的内存平均使用率。 90.0% 主机状态主机文件句柄使用率统计采集周期内该主机的文件句柄使用率。 80.0% 主机PID使用率主机PID使用率。 90% 网络状态 TCP临时端口使用率统计采集周期内该主机的TCP临时端口使用率。 80.0% 网络读信息读包错误率统计采集周期内该主机上该网口的读包错误率。 0.5% 读包丢包率统计采集周期内该主机上该网口的读包丢包率。 0.5% 读吞吐率统计周期内网口的平均读吞吐率（MAC层）。 80% 网络写信息写包错误率统计采集周期内该主机上该网口的写包错误率。 0.5% 写包丢包率统计采集周期内该主机上该网口的写包丢包率。 0.5% 写吞吐率统计周期内网口的平均写吞吐率（MAC层）。 80% 进程 D状态进程总数统计周期内主机上D状态进程数量。 0 omm进程使用率统计周期内omm进程使用率。 90 表4 集群监控指标转告警列表服务监控指标组名称监控指标名称指标含义默认阈值 DBService 数据库数据库连接数使用率数据库连接数使用率统计。 90% 数据目录磁盘空间使用率数据目录磁盘空间使用率统计。 80% Flume Agent Flume堆内存使用率 Flume堆内存使用百分比统计。 95.0% Flume直接内存使用率 Flume直接内存使用百分比统计。 80.0% Flume非堆内存使用率 Flume非堆内存使用百分比统计。 80.0% Flume垃圾回收（GC）总时间 Flume垃圾回收（GC）总时间。 12000ms HBase GC GC中回收old区所花时长 RegionServer的总GC时间。 5000ms GC中回收old区所花时长 HMaster的总GC时间。 5000ms CPU和内存 RegionServer直接内存使用率统计 RegionServer直接内存使用率统计。 90% RegionServer堆内存使用率统计 RegionServer堆内存使用率统计。 90% HMaster直接内存使用率统计 HMaster直接内存使用率统计。 90% HMaster堆内存使用率统计 HMaster堆内存使用率统计。 90% 服务单个RegionServer的region数目单个RegionServer的Region数目。 2000 处在RIT状态达到阈值时长的region数处在RIT状态达到阈值时长的region数。 1 容灾容灾同步失败次数同步容灾数据失败次数。 1 主集群等待同步的日志文件数量主集群等待同步的日志文件数量。 128 主集群等待同步的HFile文件数量主集群等待同步的HFile文件数量。 128 队列 Compaction操作队列大小 Compaction操作队列大小。 100 HDFS 文件和块 HDFS缺失的块数量 HDFS文件系统中缺少副本块数量。 0 需要复制副本的块总数 NameNode需要复制副本的块总数。 1000 RPC 主NameNode RPC处理平均时间 NameNode RPC处理平均时间。 100ms 主NameNode RPC队列平均时间 NameNode RPC队列平均时间。 200ms 磁盘 HDFS磁盘空间使用率 HDFS磁盘空间使用率。 80% DataNode磁盘空间使用率 HDFS文件系统中DataNode可以使用的磁盘空间率。 80% 总副本预留磁盘空间所占比率总副本预留磁盘空间占DataNode总未使用磁盘空间的百分比。 90% 资源故障的DataNode总数出故障的DataNode节点数量。 3 NameNode非堆内存使用百分比统计 NameNode非堆内存使用百分比统计。 90% NameNode直接内存使用百分比统计 NameNode直接内存使用百分比统计。 90% NameNode堆内存使用百分比统计 NameNode堆内存使用百分比统计。 95% DataNode直接内存使用百分比统计 DataNode直接内存使用百分比统计。 90% DataNode堆内存使用百分比统计 DataNode堆内存使用百分比统计。 95% DataNode非堆内存使用百分比统计 DataNode非堆内存使用百分比统计。 90% 垃圾回收垃圾回收时间统计（GC） NameNode每分钟的垃圾回收（GC）所占用的时间。 12000ms 垃圾回收时间统计（GC） DataNode每分钟的垃圾回收（GC）所占用的时间。 12000ms Hive HQL Hive执行成功的HQL百分比 Hive执行成功的HQL百分比。 90.0% Background Background线程使用率 Background线程使用率。 90% GC MetaStore的总GC时间 MetaStore的总GC时间。 12000ms HiveServer的总GC时间 HiveServer的总GC时间。 12000ms 容量 Hive已经使用的HDFS空间占可使用空间的百分比 Hive已经使用的HDFS空间占可使用空间的百分比。 85.0% CPU和内存 MetaStore直接内存使用率统计 MetaStore直接内存使用率统计。 95% MetaStore非堆内存使用率统计 MetaStore非堆内存使用率统计。 95% MetaStore堆内存使用率统计 MetaStore堆内存使用率统计。 95% HiveServer直接内存使用率统计 HiveServer直接内存使用率统计。 95% HiveServer非堆内存使用率统计 HiveServer非堆内存使用率统计。 95% HiveServer堆内存使用率统计 HiveServer堆内存使用率统计。 95% Session 连接到HiveServer的session数占最大允许session数的百分比连接到HiveServer的session数占最大允许session数的百分比。 90.0% Kafka 分区未完全同步的Partition百分比未完全同步的Partition数占Partition总数的百分比。 50% 其他 Partition不可用百分比 Kafka各个Topic的Partition不可用占比。 40% broker上用户连接数使用率 broker上用户连接数使用率。 80% 磁盘 Broker磁盘使用率 Broker数据目录所在磁盘的磁盘使用率。 80.0% Broker磁盘IO使用率 Broker数据目录所在磁盘的磁盘IO使用率。 80% 进程 Broker每分钟的垃圾回收时间统计（GC） Broker进程每分钟垃圾回收（GC）所占用的时间。 12000ms Kafka堆内存使用率 Kafka堆内存使用百分比统计。 95% Kafka直接内存使用率 Kafka直接内存使用百分比统计。 95% Loader 内存 Loader堆内存使用率 Loader堆内存使用率。 95% Loader直接内存使用率统计 Loader直接内存使用率统计。 80.0% Loader非堆内存使用率 Loader非堆内存使用率。 80% GC Loader的总GC时间 Loader的总GC时间。 12000ms Mapreduce 垃圾回收垃圾回收时间统计（GC）垃圾回收时间统计（GC）。 12000ms 资源 JobHistoryServer直接内存使用百分比统计 JobHistoryServer直接内存使用百分比统计。 90% JobHistoryServer非堆内存使用百分比统计 JobHistoryServer非堆内存使用百分比统计。 90% JobHistoryServer堆内存使用百分比统计 JobHistoryServer堆内存使用百分比统计。 95% Oozie 内存 Oozie堆内存使用率 Oozie堆内存使用率。 95.0% Oozie直接内存使用率 Oozie直接内存使用率。 80.0% Oozie非堆内存使用率 Oozie非堆内存使用率。 80% GC Oozie垃圾回收（GC）总时间 Oozie垃圾回收（GC）总时间。 12000ms Spark/Spark2x 内存 JD BCS erver2x堆内存使用率统计 JDB CS erver2x堆内存使用率统计。 95% JDBCServer2x直接内存使用率统计 JDBCServer2x直接内存使用率统计。 95% JDBCServer2x非堆内存使用率统计 JDBCServer2x非堆内存使用率统计 95% JobHistory2x直接内存使用率统计 JobHistory2x直接内存使用率统计。 95% JobHistory2x非堆内存使用率统计 JobHistory2x非堆内存使用率统计。 95% JobHistory2x堆内存使用率统计 JobHistory2x堆内存使用率统计。 95% IndexServer2x直接内存使用率统计 IndexServer2x直接内存使用率统计。 95% IndexServer2x堆内存使用率统计 IndexServer2x堆内存使用率统计。 95% IndexServer2x非堆内存使用率统计 IndexServer2x非堆内存使用率统计。 95% GC次数 JDBCServer2x的Full GC次数 JDBCServer2x进程的Full GC次数。 12 JobHistory2x的Full GC次数 JobHistory2x进程的Full GC次数。 12 IndexServer2x的Full GC次数 IndexServer2x进程的Full GC次数。 12 GC时间 JDBCServer2x的总GC时间 JDBCServer2x的总GC时间。 12000ms JobHistory2x的总GC时间 JobHistory2x的总GC时间。 12000ms IndexServer2x的总GC时间 IndexServer2x的总GC时间。 12000ms Storm 集群 Supervisor数统计周期内集群中可用的Supervisor数目。 1 已用Slot比率统计周期内集群中可用的slot使用率。 80.0% Nimbus Nimbus堆内存使用率 Nimbus堆内存使用百分比统计。 80% Yarn 资源 NodeManager直接内存使用百分比统计 NodeManager直接内存使用百分比统计。 90% NodeManager堆内存使用百分比统计 NodeManager堆内存使用百分比统计。 95% NodeManager非堆内存使用百分比统计 NodeManager非堆内存使用百分比统计。 90% ResourceManager直接内存使用百分比统计 ResourceManager直接内存使用百分比统计。 90% ResourceManager堆内存使用百分比统计 ResourceManager堆内存使用百分比统计。 95% ResourceManager非堆内存使用百分比统计 ResourceManager非堆内存使用百分比统计。 90% 垃圾回收垃圾回收时间统计（GC） NodeManager每分钟的垃圾回收（GC）所占用的时间。 12000ms 垃圾回收时间统计（GC） ResourceManager每分钟的垃圾回收（GC）所占用的时间。 12000ms 其他 root队列下失败的任务数 root队列下失败的任务数。 50 root队列下被杀死的任务数 root队列下被杀死的任务数。 50 CPU和内存挂起的内存量挂起的内存量。 83886080MB 任务正在挂起的任务正在挂起的任务。 60 ZooKeeper 连接 ZooKeeper连接数使用率 ZooKeeper连接数使用百分比统计。 80% CPU和内存 ZooKeeper堆内存使用率 ZooKeeper堆内存使用百分比统计。 95% ZooKeeper直接内存使用率 ZooKeeper直接内存使用百分比统计。 80% GC ZooKeeper每分钟的垃圾回收时间统计（GC） ZooKeeper每分钟的垃圾回收时间统计（GC）。 12000ms Ranger GC UserSync垃圾回收（GC）时间 UserSync垃圾回收（GC）时间。 12000ms RangerAdmin垃圾回收（GC）时间 RangerAdmin垃圾回收（GC）时间。 12000ms TagSync垃圾回收（GC）时间 TagSync垃圾回收（GC）时间。 12000ms CPU和内存 UserSync非堆内存使用率 UserSync非堆内存使用百分比统计。 80.0% UserSync直接内存使用率 UserSync直接内存使用百分比统计。 80.0% UserSync堆内存使用率 UserSync堆内存使用百分比统计。 95.0% RangerAdmin非堆内存使用率 RangerAdmin非堆内存使用百分比统计。 80.0% RangerAdmin堆内存使用率 RangerAdmin堆内存使用百分比统计。 95.0% RangerAdmin直接内存使用率 RangerAdmin直接内存使用百分比统计。 80.0% TagSync直接内存使用率 TagSync直接内存使用百分比统计。 80.0% TagSync非堆内存使用率 TagSync非堆内存使用百分比统计。 80.0% TagSync堆内存使用率 TagSync堆内存使用百分比统计。 95.0% ClickHouse 集群配额 Clickhouse服务在ZooKeeper的数量配额使用率 ClickHouse服务在ZooKeeper上目录的数量配额使用百分比。 90% Clickhouse服务在ZooKeeper的容量配额使用率 ClickHouse服务在ZooKeeper上目录的容量配额使用百分比。 90% IoTDB GC IoTDBServer垃圾回收时间 IoTDBServer垃圾回收所占用的时间 12000ms CPU和内存 IoTDBServer堆内存使用率 IoTDBServer堆内存使用百分比统计 90% IoTDBServer直接内存使用率 IoTDBServer直接内存使用百分比统计 90%

MAPREDUCE服务 MRS 查看与配置MRS告警事件
MAPREDUCE服务 MRS-配置MRS集群告警阈值:配置MRS集群告警阈值（MRS 2.x及之前版本）

配置MRS集群告警阈值（MRS 2.x及之前版本）在MRS Manager，单击“系统设置”。在“配置”区域“监控和告警配置”下，单击“阈值配置”，依据规划选择监控指标并设置其基线。单击某一指标例如“CPU使用率”，单击“添加规则”。在“配置”对话框中填写监控指标规则参数。表2 监控指标规则参数参数名参数解释参数示例规则名称规则名称 CPU_MAX 参考日期查看某指标的历史参考数据 2014/11/06 阈值类型选择某指标的最大值或最小值，类型为“最大值”表示指标的实际值大于设置的阈值时系统将产生告警，类型为“最小值”表示指标的实际值小于设置的阈值时系统将产生告警。最大值告警级别告警级别，包括：致命严重一般提示重要时间范围设置规则生效时监控指标的具体时间段从00:00到23:59 阈值设置规则监控指标的阈值设置数值80 日期设置规则生效的日期类型，包括：工作日周末其它工作日添加日期日期选择“其他”时该参数生效。可选择多个日期。 11/30 单击“确定”。界面右上角弹出提示“模板保存成功。”。 “发送告警”默认已勾选。Manager会检查监控指标数值是否满足阈值条件，若连续检查且不满足的次数等于“平滑次数”设置的值则发送告警，支持自定义。“检查周期(秒)”表示Manager检查监控指标的时间间隔。在新添加规则所在的行，单击“操作”下的“应用”，界面右上角弹出提示规则xx应用成功，完成添加。单击“操作”下的“取消应用”，界面右上角弹出提示规则xx取消成功。

MAPREDUCE服务 MRS 查看与配置MRS告警事件
MapReduce服务 MRS-查看MRS集群告警:通过Manager查看与清除告警（MRS 2.x及之前版本）

通过Manager查看与清除告警（MRS 2.x及之前版本）在MRS Manager，单击“告警管理”，在告警列表查看告警信息。告警列表每页默认显示最近的十条告警。支持在“告警级别”筛选相同级别的全部告警。结果包含已清除和未清除的告警。单击“高级搜索”显示告警搜索区域，设置查询条件后，单击“搜索”，查看指定的告警信息。单击“重置”清除输入的搜索条件。 “开始时间”和“结束时间”表示时间范围的开始时间和结束时间，可以搜索此时间段内产生的告警。查看告警参考章节告警帮助，按照帮助指导处理告警。如果某些场景中告警由于MRS依赖的其他云服务产生，可能需要联系对应云服务运维人员处理。处理完告警后，若需手动清除，单击“清除告警”，手动清除告警。如果有多个告警已完成处理，可选中一个或多个待清除的告警，单击“清除告警”，批量清除告警。每次最多批量清除300条告警。

MapReduce服务 MRS 查看与配置MRS告警事件
MapReduce服务 MRS-查看MRS集群告警:通过管理控制台查看与清除告警

通过管理控制台查看与清除告警登录MRS管理控制台。选择“现有集群”，选中一个运行中的集群并单击集群名称，进入集群信息页面。单击“告警管理”，在告警列表查看告警信息。告警列表每页默认显示最近的十条告警。支持在告警“级别”筛选相同级别的全部告警。结果包含已清除和未清除的告警。单击“全部导出”，在弹框内选择“保存类型”，单击“确定”可导出告警。表1 告警信息说明参数参数说明告警ID 告警的ID。告警名告警的名称。级别告警级别。 MRS 3.x之前版本集群告警级别为：致命指集群服务不可用，节点故障、 GaussDB 主备数据不同步、LdapServer数据同步异常等影响集群正常运行的告警，需要根据告警及时检查集群情况并恢复。严重指集群部分功能不可用的告警，包括进程故障、周期备份任务失败、关键文件权限异常等，需要根据告警及时检查报告告警的对象并恢复。一般指不影响当前集群主要功能的告警，包括证书文件即将过期、审计日志转储失败、License文件即将过期等告警。提示指级别最低的一种告警，起到信息展示或信息提示的作用，标识这件事情的发生，一般包括：停止服务、删除服务、停止实例、删除实例、删除节点、重启服务、重启实例、Manager主备倒换、缩容主机、实例恢复、实例故障、作业执行成功、作业执行失败等。 MRS 3.x及之后版本集群告警级别为：紧急指集群服务不可用，节点故障、GaussDB主备数据不同步、LdapServer数据同步异常等影响集群正常运行的告警，需要根据告警及时检查集群情况并恢复。重要指集群部分功能不可用的告警，包括进程故障、周期备份任务失败、关键文件权限异常等，需要根据告警及时检查报告告警的对象并恢复。次要指不影响当前集群主要功能的告警，包括证书文件即将过期、审计日志转储失败、License文件即将过期等告警。提示指级别最低的一种告警，起到信息展示或信息提示的作用，标识这件事情的发生，一般包括：停止服务、删除服务、停止实例、删除实例、删除节点、重启服务、重启实例、Manager主备倒换、缩容主机、实例恢复、实例故障、作业执行成功、作业执行失败等。生成时间产生告警的时间。定位信息告警的详细信息。操作当告警可手动清除时，单击“清除告警”进行处理。需要查看告警详情时，单击“查看帮助”进行查看（MRS 3.x及之后版本支持）。单击“高级搜索”显示告警搜索区域，设置查询条件后，单击“搜索”，查看指定的告警信息。单击“重置”清除输入的搜索条件。 “起止时间”表示时间范围的开始时间和结束时间，可以搜索此时间段内产生的告警。查看告警参考章节告警帮助，按照帮助指导处理告警。如果某些场景中告警由于MRS依赖的其他云服务产生，可能需要联系对应云服务运维人员处理。处理完告警后，若需手动清除，单击“清除告警”，在弹出的对话框单击“确定”，手动清除告警。如果有多个告警已完成处理，可选中一个或多个待清除的告警，单击“清除告警”，批量清除告警。每次最多批量清除300条告警。

MapReduce服务 MRS 查看与配置MRS告警事件