云服务器内容精选

  • 告警解释 GaussDB (DWS)每30秒采集集群各节点的数据盘I/O利用率。如果某节点的某数据盘最近10分钟(可配置)内的平均使用率超过90%(可配置),则上报节点数据盘I/O利用率超阈值告警;如果平均使用率低于85%(即上报阈值减去5%),则消除告警。 如果节点数据盘I/O利用率一直大于上报阈值,那么在24小时(可配置)后将再次发起告警。 基于SSD盘存储的集群,在业务量增多的情况下,磁盘I/O可能会超过100%,但不代表磁盘存在性能瓶颈,需结合实际业务运行情况判断告警有效性。
  • 告警解释 GaussDB(DWS)每30秒采集集群各节点所有磁盘的使用情况。 如果存在磁盘最近10分钟(可配置)内的最大使用率超过80%(可配置),则上报节点数据盘使用率超阈值的重要告警;如果平均使用率低于75%(即上报阈值减去5%),则消除该重要告警。 如果存在磁盘最近10分钟(可配置)内的最大使用率超过85%(可配置),则上报节点数据盘使用率超阈值的紧急告警;如果平均使用率低于80%(即上报阈值减去5%),则消除该紧急告警。 如果存在磁盘的最大使用率一直大于上报阈值,那么在24小时(可配置)后将再次发起告警。
  • 告警解释 系统以用户配置的告警周期(metrics.reporter.alarm.job.alarm.rocksdb.metrics.duration,默认180s)检查作业RocksDB监控数据,如果作业RocksDB的Get P95耗时达到用户配置的阈值(metrics.reporter.alarm.job.alarm.rocksdb.get.micros.threshold,默认值50000,单位微秒),则发送告警。当作业RocksDB的Get P95耗时时间小于或等于阈值,则告警恢复。
  • 告警解释 用户业务查询执行过程中,数据库可能会选择将临时结果暂存到磁盘,简称算子下盘。 GaussDB(DWS)每60秒通过GS_WLM_SESSION_STATIS TICS 视图检测CN上正在执行的作业的负载管理记录,并计算所有下盘DN的最大下盘数据量。 如果10分钟(可配置)内存在SQL的下盘量超过5GB(可配置),则上报查询语句触发下盘量超阈值;当集群不存在符合告警条件的SQL语句时,自动消除该告警。修改告警配置详情请参见修改告警规则。 如果一直存在能够引发告警的阻塞SQL,那么在24小时(可配置)后将再次发起告警。
  • 告警解释 GaussDB(DWS)开启实时查询监控时,默认每60秒通过GS_WLM_SESSION_STATISTI CS 视图检测CN上正在执行作业的排队状态。 如果10分钟(可配置)内检测集群中处于排队等待状态的SQL语句数量超过10个(可配置),则上报查询语句堆积数量超阈值告警;当集群处于等待状态的SQL语句数量小于10时,自动消除该告警。 如果一直存在能够引发告警的查询语句堆积数量,那么在24小时(可配置)后将再次发起告警。
  • 对系统的影响 根据告警的定位信息查看是哪个实例进程故障,不同的实例故障会产生不同的影响。 例如HDFS下的实例故障时会分别产生如下影响: DataNode:如果一个DataNode实例故障,客户端的读写操作将无法访问该DataNode上存储的数据块,可能导致数据的损失或不可用。但HDFS中的数据是冗余的,因此客户端可以从其他DataNode访问数据。 HttpFS:如果HttpFS实例故障,客户端将无法通过HTTP方式访问HDFS中的文件。但是客户端可以使用其他途径(如shell命令)来访问HDFS上的文件。 JournalNode:如果一个JournalNode实例故障,命名空间和数据日志将无法持久化到磁盘,可能导致数据的损失或不可用。但HDFS会在其他JournalNode上保存备份,因此可以将故障的JournalNode恢复并重新平衡。 NameNode:如果NameNode部署方式为主备模式,则会导致产生NameNode主备倒换。单NameNode情况下,客户端将无法读取或写入任何数据到 HDFS,当前 MRS 部署HDFS时要求NameNode部署双机模式,不存在单实例场景。 Router:如果一个Router实例故障,客户端将无法访问该Router上的数据。但客户端可以使用其他Router或者直接访问后端NameNode上的数据,来解决此问题。 ZKFC:如果一个ZKFC实例故障,NameNode将不会持续且自动地故障转移,这将导致客户端无法读取或写入任何数据到HDFS。因此,需要在其他可用的ZKFC上启用自动故障转移,以便恢复整个HDFS集群的正常工作。
  • 参考信息 /etc/fstab检查文件的检查标准 检查“/etc/fstab”文件中配置的分区,是否在“/proc/mounts”中能找到。 检查在“fstab”中配置的swap分区,是否和“/proc/swaps”一一对应。 /etc/hosts检查文件的检查标准 通过命令cat /etc/hosts查看是否存在以下几种情况,如果是,则说明该配置文件配置异常。 “/etc/hosts”文件不存在。 该主机的主机名不在文件中配置。 该主机名对应的IP不唯一。 该主机名对应的IP在ifconfig命令下的回显列表中不存在。 该文件中存在一个IP对应多个主机名的情况。 /etc/ssh/sshd_config检查文件的检查标准 通过命令vi /etc/ssh/sshd_config查看下面几个配置项是否正确。 “UseDNS”项必须配置为“no”。 “MaxStartups”必须配置为大于等于1000。 “PasswordAuthentication”和“ChallengeResponseAuthentication”两个配置项中必须至少有一项没有配置或者至少有一项配置为“yes”。
  • 告警解释 系统按120秒周期性检测HBase在HDFS上的如下目录和文件是否存在,当检测到文件或者目录不存在时,上报该告警。当文件或目录都恢复后,告警恢复。 检查内容: 命名空间hbase在HDFS上的目录。 hbase.version文件。 hbase:meta表在HDFS上的目录、.tableinfo和.regioninfo文件。 hbase:namespace表在HDFS上的目录、.tableinfo和.regioninfo文件。 hbase:hindex表在HDFS上的目录、.tableinfo和.regioninfo文件。 hbase:acl表在HDFS上的目录、.tableinfo和.regioninfo文件(该表在普通模式集群默认不存在)。
  • 参考信息 “/etc/fstab”检查文件的检查标准 检查“/etc/fstab”文件中配置的分区,是否在“/proc/mounts”中能找到,另外再检查在“fstab”中配置的swap分区,是否和“/proc/swaps”一一对应。 “/etc/hosts”检查文件的检查标准 通过命令cat /etc/hosts查看是否存在以下几种情况,如果是,则说明该配置文件配置异常。 “/etc/hosts”文件不存在。 该主机的主机名不在文件中配置。 该主机名对应的IP不唯一。 该主机名对应的IP在ipconfig列表中不存在。 该文件中存在一个IP对应多个主机名的情况。
  • 处理步骤 登录MRS集群详情页面,选择“告警管理”。 在实时告警列表中,单击此告警所在行。 在“告警详情”区域,从“定位信息”中获取“HostName”和“PartitionName”,其中“HostName”为故障告警的节点,“PartitionName”为故障磁盘的分区。 联系硬件工程师确认为磁盘硬件故障之后,将服务器上故障磁盘在线拔出。 拔出磁盘后系统会上报“ALM-12014 分区丢失”告警,参考ALM-12014 设备分区丢失(2.x及以前版本)进行处理,处理完成后,本告警即可自动消除。
  • 告警参数 参数名称 参数含义 告警源 产生告警的系统名称。例如:DWS。 集群名称 产生告警的集群名称。 定位信息 产生告警的集群ID、集群名称。例如,cluster_id: xxxx-xxxx-xxxx-xxxx,cluster_name: test_dws。 详细信息 产生告警的详细信息,包括集群、阈值信息。例如:CloudService=DWS, resourceId: xxxx-xxxx-xxxx-xxxx, resourceIdName: test_dws, first_alarm_time: 2022-11-26 11:14:58;集群test_dws的SQL探针阈值为2倍。该集群sql探针超过阈值的SQL探针有:'select xxx from xxxx'。 产生日期 产生告警的时间。 状态 当前告警的处理状态。
  • 告警参数 参数名称 参数含义 告警源 产生告警的系统名称,告警的详细分类 集群名称 产生告警的集群 定位信息 产生告警的集群ID,集群名称 告警信息 CloudService表示产生告警的云服务,依次为服务名,资源标识,资源名称,首次告警时间;格式化告警信息。示例:CloudServiceDWS,resourceId=xxxx-xxxx-xxxx-xxxx,resourceIdName=test_dws,first_alarm_time:2023-01-11:19:02:09;集群test_dws在20分钟内出现默认资源池队列阻塞 告警时间 告警的产生时间 状态 告警当前的活动状态
  • 告警解释 GaussDB(DWS)通过资源池实现对内存、IO和CPU等资源的控制,并基于优先级调度机制实现资源管理和分配,对用户业务提供资源负载管理服务。某种资源紧张时,可能出现SQL语句阻塞排队,等待其他语句执行完毕后才能执行的现象,详情请参见动态负载管理下的CCN排队。 GaussDB(DWS)固定每5分钟检查默认资源池default_pool的队列阻塞情况。如果存在长时间阻塞无法执行的SQL语句(默认20分钟,可配置),则触发集群默认资源池队列阻塞告警;当集群不存在符合告警条件的SQL语句时,自动消除该告警。 如果一直存在能够引发告警的阻塞SQL,那么在24小时(可配置)后将再次发起告警。