告警处理-华为云

数据仓库服务 GAUSSDB(DWS)-DWS_2000000009 节点数据盘I/O利用率超阈值（Node Data Disk I/O Usage Exceeds the Threshold）:告警解释

告警解释 GaussDB (DWS)每30秒采集集群各节点的数据盘I/O利用率。如果某节点的某数据盘最近10分钟（可配置）内的平均使用率超过90%（可配置），则上报节点数据盘I/O利用率超阈值告警；如果平均使用率低于85%（即上报阈值减去5%），则消除告警。如果节点数据盘I/O利用率一直大于上报阈值，那么在24小时（可配置）后将再次发起告警。基于SSD盘存储的集群，在业务量增多的情况下，磁盘I/O可能会超过100%，但不代表磁盘存在性能瓶颈，需结合实际业务运行情况判断告警有效性。

数据仓库服务 GAUSSDB(DWS) 告警处理

数据仓库服务 GAUSSDB(DWS)-DWS_2000000006 节点数据盘使用率超阈值（Node Data Disk Usage Exceeds the Threshold）:告警解释

告警解释 GaussDB(DWS)每30秒采集集群各节点所有磁盘的使用情况。如果存在磁盘最近10分钟（可配置）内的最大使用率超过80%（可配置），则上报节点数据盘使用率超阈值的重要告警；如果平均使用率低于75%（即上报阈值减去5%），则消除该重要告警。如果存在磁盘最近10分钟（可配置）内的最大使用率超过85%（可配置），则上报节点数据盘使用率超阈值的紧急告警；如果平均使用率低于80%（即上报阈值减去5%），则消除该紧急告警。如果存在磁盘的最大使用率一直大于上报阈值，那么在24小时（可配置）后将再次发起告警。

数据仓库服务 GAUSSDB(DWS) 告警处理

MAPREDUCE服务 MRS-ALM-45649 RocksDB的Get P95耗时持续超过阈值:告警解释

告警解释系统以用户配置的告警周期（metrics.reporter.alarm.job.alarm.rocksdb.metrics.duration，默认180s）检查作业RocksDB监控数据，如果作业RocksDB的Get P95耗时达到用户配置的阈值（metrics.reporter.alarm.job.alarm.rocksdb.get.micros.threshold，默认值50000，单位微秒），则发送告警。当作业RocksDB的Get P95耗时时间小于或等于阈值，则告警恢复。

MAPREDUCE服务 MRS MRS集群告警处理参考

数据仓库服务 GAUSSDB(DWS)-DWS_2000000016 查询语句触发下盘量超阈值（Data Spilled to Disks for a Query Statement Exceeds the Threshold）:告警解释

告警解释用户业务查询执行过程中，数据库可能会选择将临时结果暂存到磁盘，简称算子下盘。 GaussDB(DWS)每60秒通过GS_WLM_SESSION_STATIS TICS 视图检测CN上正在执行的作业的负载管理记录，并计算所有下盘DN的最大下盘数据量。如果10分钟（可配置）内存在SQL的下盘量超过5GB（可配置），则上报查询语句触发下盘量超阈值；当集群不存在符合告警条件的SQL语句时，自动消除该告警。修改告警配置详情请参见修改告警规则。如果一直存在能够引发告警的阻塞SQL，那么在24小时（可配置）后将再次发起告警。

数据仓库服务 GAUSSDB(DWS) 告警处理

数据仓库服务 GAUSSDB(DWS)-DWS_2000000017 查询语句堆积数量超阈值（Number of Queuing Query Statements Exceeds the Threshold）:告警解释

告警解释 GaussDB(DWS)开启实时查询监控时，默认每60秒通过GS_WLM_SESSION_STATISTI CS 视图检测CN上正在执行作业的排队状态。如果10分钟（可配置）内检测集群中处于排队等待状态的SQL语句数量超过10个（可配置），则上报查询语句堆积数量超阈值告警；当集群处于等待状态的SQL语句数量小于10时，自动消除该告警。如果一直存在能够引发告警的查询语句堆积数量，那么在24小时（可配置）后将再次发起告警。

数据仓库服务 GAUSSDB(DWS) 告警处理

MAPREDUCE服务 MRS-ALM-12007 进程故障:对系统的影响

对系统的影响根据告警的定位信息查看是哪个实例进程故障，不同的实例故障会产生不同的影响。例如HDFS下的实例故障时会分别产生如下影响： DataNode：如果一个DataNode实例故障，客户端的读写操作将无法访问该DataNode上存储的数据块，可能导致数据的损失或不可用。但HDFS中的数据是冗余的，因此客户端可以从其他DataNode访问数据。 HttpFS：如果HttpFS实例故障，客户端将无法通过HTTP方式访问HDFS中的文件。但是客户端可以使用其他途径（如shell命令）来访问HDFS上的文件。 JournalNode：如果一个JournalNode实例故障，命名空间和数据日志将无法持久化到磁盘，可能导致数据的损失或不可用。但HDFS会在其他JournalNode上保存备份，因此可以将故障的JournalNode恢复并重新平衡。 NameNode：如果NameNode部署方式为主备模式，则会导致产生NameNode主备倒换。单NameNode情况下，客户端将无法读取或写入任何数据到 HDFS，当前 MRS 部署HDFS时要求NameNode部署双机模式，不存在单实例场景。 Router：如果一个Router实例故障，客户端将无法访问该Router上的数据。但客户端可以使用其他Router或者直接访问后端NameNode上的数据，来解决此问题。 ZKFC：如果一个ZKFC实例故障，NameNode将不会持续且自动地故障转移，这将导致客户端无法读取或写入任何数据到HDFS。因此，需要在其他可用的ZKFC上启用自动故障转移，以便恢复整个HDFS集群的正常工作。

MAPREDUCE服务 MRS MRS集群告警处理参考

MAPREDUCE服务 MRS-ALM-12042 关键文件配置异常:参考信息

参考信息 /etc/fstab检查文件的检查标准检查“/etc/fstab”文件中配置的分区，是否在“/proc/mounts”中能找到。检查在“fstab”中配置的swap分区，是否和“/proc/swaps”一一对应。 /etc/hosts检查文件的检查标准通过命令cat /etc/hosts查看是否存在以下几种情况，如果是，则说明该配置文件配置异常。 “/etc/hosts”文件不存在。该主机的主机名不在文件中配置。该主机名对应的IP不唯一。该主机名对应的IP在ifconfig命令下的回显列表中不存在。该文件中存在一个IP对应多个主机名的情况。 /etc/ssh/sshd_config检查文件的检查标准通过命令vi /etc/ssh/sshd_config查看下面几个配置项是否正确。 “UseDNS”项必须配置为“no”。 “MaxStartups”必须配置为大于等于1000。 “PasswordAuthentication”和“ChallengeResponseAuthentication”两个配置项中必须至少有一项没有配置或者至少有一项配置为“yes”。

MAPREDUCE服务 MRS MRS集群告警处理参考

MAPREDUCE服务 MRS-ALM-19012 HBase系统表目录或文件丢失:告警解释

告警解释系统按120秒周期性检测HBase在HDFS上的如下目录和文件是否存在，当检测到文件或者目录不存在时，上报该告警。当文件或目录都恢复后，告警恢复。检查内容：命名空间hbase在HDFS上的目录。 hbase.version文件。 hbase:meta表在HDFS上的目录、.tableinfo和.regioninfo文件。 hbase:namespace表在HDFS上的目录、.tableinfo和.regioninfo文件。 hbase:hindex表在HDFS上的目录、.tableinfo和.regioninfo文件。 hbase:acl表在HDFS上的目录、.tableinfo和.regioninfo文件(该表在普通模式集群默认不存在)。

MAPREDUCE服务 MRS MRS集群告警处理参考

MAPREDUCE服务 MRS-ALM-12042 关键文件配置异常（2.x及以前版本）:参考信息

参考信息 “/etc/fstab”检查文件的检查标准检查“/etc/fstab”文件中配置的分区，是否在“/proc/mounts”中能找到，另外再检查在“fstab”中配置的swap分区，是否和“/proc/swaps”一一对应。 “/etc/hosts”检查文件的检查标准通过命令cat /etc/hosts查看是否存在以下几种情况，如果是，则说明该配置文件配置异常。 “/etc/hosts”文件不存在。该主机的主机名不在文件中配置。该主机名对应的IP不唯一。该主机名对应的IP在ipconfig列表中不存在。该文件中存在一个IP对应多个主机名的情况。

MAPREDUCE服务 MRS MRS集群告警处理参考

MAPREDUCE服务 MRS-ALM-12015 设备分区文件系统只读（2.x及以前版本）:处理步骤

处理步骤登录MRS集群详情页面，选择“告警管理”。在实时告警列表中，单击此告警所在行。在“告警详情”区域，从“定位信息”中获取“HostName”和“PartitionName”，其中“HostName”为故障告警的节点，“PartitionName”为故障磁盘的分区。联系硬件工程师确认为磁盘硬件故障之后，将服务器上故障磁盘在线拔出。拔出磁盘后系统会上报“ALM-12014 分区丢失”告警，参考ALM-12014 设备分区丢失（2.x及以前版本）进行处理，处理完成后，本告警即可自动消除。

MAPREDUCE服务 MRS MRS集群告警处理参考

数据仓库服务 GAUSSDB(DWS)-DWS_2000000020 集群的SQL探针耗时超阈值（SQL probe of the cluster Usage Exceeds the Threshold）:告警参数

告警参数参数名称参数含义告警源产生告警的系统名称。例如：DWS。集群名称产生告警的集群名称。定位信息产生告警的集群ID、集群名称。例如，cluster_id: xxxx-xxxx-xxxx-xxxx,cluster_name: test_dws。详细信息产生告警的详细信息，包括集群、阈值信息。例如：CloudService=DWS, resourceId: xxxx-xxxx-xxxx-xxxx, resourceIdName: test_dws, first_alarm_time: 2022-11-26 11:14:58；集群test_dws的SQL探针阈值为2倍。该集群sql探针超过阈值的SQL探针有：'select xxx from xxxx'。产生日期产生告警的时间。状态当前告警的处理状态。

数据仓库服务 GAUSSDB(DWS) 告警处理

数据仓库服务 GaussDB(DWS)-DWS_2000000018 集群默认资源池队列阻塞（Queue congestion in the cluster default resource pool）:告警参数

告警参数参数名称参数含义告警源产生告警的系统名称，告警的详细分类集群名称产生告警的集群定位信息产生告警的集群ID，集群名称告警信息 CloudService表示产生告警的云服务，依次为服务名，资源标识，资源名称，首次告警时间；格式化告警信息。示例：CloudServiceDWS，resourceId=xxxx-xxxx-xxxx-xxxx，resourceIdName=test_dws,first_alarm_time:2023-01-11:19:02:09;集群test_dws在20分钟内出现默认资源池队列阻塞告警时间告警的产生时间状态告警当前的活动状态

数据仓库服务 GaussDB(DWS) 告警处理

数据仓库服务 GaussDB(DWS)-DWS_2000000018 集群默认资源池队列阻塞（Queue congestion in the cluster default resource pool）:告警解释

告警解释 GaussDB(DWS)通过资源池实现对内存、IO和CPU等资源的控制，并基于优先级调度机制实现资源管理和分配，对用户业务提供资源负载管理服务。某种资源紧张时，可能出现SQL语句阻塞排队，等待其他语句执行完毕后才能执行的现象，详情请参见动态负载管理下的CCN排队。 GaussDB(DWS)固定每5分钟检查默认资源池default_pool的队列阻塞情况。如果存在长时间阻塞无法执行的SQL语句（默认20分钟，可配置），则触发集群默认资源池队列阻塞告警；当集群不存在符合告警条件的SQL语句时，自动消除该告警。如果一直存在能够引发告警的阻塞SQL，那么在24小时（可配置）后将再次发起告警。

数据仓库服务 GaussDB(DWS) 告警处理

云服务器内容精选

告警处理

7*24

备案

专业服务

退订

建议反馈

售前咨询热线