MRS集群告警处理参考-华为云

MAPREDUCE服务 MRS-ALM-45649 RocksDB的Get P95耗时持续超过阈值:告警解释

告警解释系统以用户配置的告警周期（metrics.reporter.alarm.job.alarm.rocksdb.metrics.duration，默认180s）检查作业RocksDB监控数据，如果作业RocksDB的Get P95耗时达到用户配置的阈值（metrics.reporter.alarm.job.alarm.rocksdb.get.micros.threshold，默认值50000，单位微秒），则发送告警。当作业RocksDB的Get P95耗时时间小于或等于阈值，则告警恢复。

MAPREDUCE服务 MRS MRS集群告警处理参考

MAPREDUCE服务 MRS-ALM-12007 进程故障:对系统的影响

对系统的影响根据告警的定位信息查看是哪个实例进程故障，不同的实例故障会产生不同的影响。例如HDFS下的实例故障时会分别产生如下影响： DataNode：如果一个DataNode实例故障，客户端的读写操作将无法访问该DataNode上存储的数据块，可能导致数据的损失或不可用。但HDFS中的数据是冗余的，因此客户端可以从其他DataNode访问数据。 HttpFS：如果HttpFS实例故障，客户端将无法通过HTTP方式访问HDFS中的文件。但是客户端可以使用其他途径（如shell命令）来访问HDFS上的文件。 JournalNode：如果一个JournalNode实例故障，命名空间和数据日志将无法持久化到磁盘，可能导致数据的损失或不可用。但HDFS会在其他JournalNode上保存备份，因此可以将故障的JournalNode恢复并重新平衡。 NameNode：如果NameNode部署方式为主备模式，则会导致产生NameNode主备倒换。单NameNode情况下，客户端将无法读取或写入任何数据到 HDFS，当前 MRS 部署HDFS时要求NameNode部署双机模式，不存在单实例场景。 Router：如果一个Router实例故障，客户端将无法访问该Router上的数据。但客户端可以使用其他Router或者直接访问后端NameNode上的数据，来解决此问题。 ZKFC：如果一个ZKFC实例故障，NameNode将不会持续且自动地故障转移，这将导致客户端无法读取或写入任何数据到HDFS。因此，需要在其他可用的ZKFC上启用自动故障转移，以便恢复整个HDFS集群的正常工作。

MAPREDUCE服务 MRS MRS集群告警处理参考

MAPREDUCE服务 MRS-ALM-12042 关键文件配置异常:参考信息

参考信息 /etc/fstab检查文件的检查标准检查“/etc/fstab”文件中配置的分区，是否在“/proc/mounts”中能找到。检查在“fstab”中配置的swap分区，是否和“/proc/swaps”一一对应。 /etc/hosts检查文件的检查标准通过命令cat /etc/hosts查看是否存在以下几种情况，如果是，则说明该配置文件配置异常。 “/etc/hosts”文件不存在。该主机的主机名不在文件中配置。该主机名对应的IP不唯一。该主机名对应的IP在ifconfig命令下的回显列表中不存在。该文件中存在一个IP对应多个主机名的情况。 /etc/ssh/sshd_config检查文件的检查标准通过命令vi /etc/ssh/sshd_config查看下面几个配置项是否正确。 “UseDNS”项必须配置为“no”。 “MaxStartups”必须配置为大于等于1000。 “PasswordAuthentication”和“ChallengeResponseAuthentication”两个配置项中必须至少有一项没有配置或者至少有一项配置为“yes”。

MAPREDUCE服务 MRS MRS集群告警处理参考

MAPREDUCE服务 MRS-ALM-19012 HBase系统表目录或文件丢失:告警解释

告警解释系统按120秒周期性检测HBase在HDFS上的如下目录和文件是否存在，当检测到文件或者目录不存在时，上报该告警。当文件或目录都恢复后，告警恢复。检查内容：命名空间hbase在HDFS上的目录。 hbase.version文件。 hbase:meta表在HDFS上的目录、.tableinfo和.regioninfo文件。 hbase:namespace表在HDFS上的目录、.tableinfo和.regioninfo文件。 hbase:hindex表在HDFS上的目录、.tableinfo和.regioninfo文件。 hbase:acl表在HDFS上的目录、.tableinfo和.regioninfo文件(该表在普通模式集群默认不存在)。

MAPREDUCE服务 MRS MRS集群告警处理参考

MAPREDUCE服务 MRS-ALM-12042 关键文件配置异常（2.x及以前版本）:参考信息

参考信息 “/etc/fstab”检查文件的检查标准检查“/etc/fstab”文件中配置的分区，是否在“/proc/mounts”中能找到，另外再检查在“fstab”中配置的swap分区，是否和“/proc/swaps”一一对应。 “/etc/hosts”检查文件的检查标准通过命令cat /etc/hosts查看是否存在以下几种情况，如果是，则说明该配置文件配置异常。 “/etc/hosts”文件不存在。该主机的主机名不在文件中配置。该主机名对应的IP不唯一。该主机名对应的IP在ipconfig列表中不存在。该文件中存在一个IP对应多个主机名的情况。

MAPREDUCE服务 MRS MRS集群告警处理参考

MAPREDUCE服务 MRS-ALM-12015 设备分区文件系统只读（2.x及以前版本）:处理步骤

处理步骤登录MRS集群详情页面，选择“告警管理”。在实时告警列表中，单击此告警所在行。在“告警详情”区域，从“定位信息”中获取“HostName”和“PartitionName”，其中“HostName”为故障告警的节点，“PartitionName”为故障磁盘的分区。联系硬件工程师确认为磁盘硬件故障之后，将服务器上故障磁盘在线拔出。拔出磁盘后系统会上报“ALM-12014 分区丢失”告警，参考ALM-12014 设备分区丢失（2.x及以前版本）进行处理，处理完成后，本告警即可自动消除。

MAPREDUCE服务 MRS MRS集群告警处理参考

云服务器内容精选

MRS集群告警处理参考

7*24

备案

专业服务

退订

建议反馈

售前咨询热线