云服务器内容精选
-
告警解释 系统以用户配置的告警周期(metrics.reporter.alarm.job.alarm.rocksdb.metrics.duration,默认180s)检查作业RocksDB监控数据,如果作业RocksDB的Get P95耗时达到用户配置的阈值(metrics.reporter.alarm.job.alarm.rocksdb.get.micros.threshold,默认值50000,单位微秒),则发送告警。当作业RocksDB的Get P95耗时时间小于或等于阈值,则告警恢复。
-
对系统的影响 根据告警的定位信息查看是哪个实例进程故障,不同的实例故障会产生不同的影响。 例如HDFS下的实例故障时会分别产生如下影响: DataNode:如果一个DataNode实例故障,客户端的读写操作将无法访问该DataNode上存储的数据块,可能导致数据的损失或不可用。但HDFS中的数据是冗余的,因此客户端可以从其他DataNode访问数据。 HttpFS:如果HttpFS实例故障,客户端将无法通过HTTP方式访问HDFS中的文件。但是客户端可以使用其他途径(如shell命令)来访问HDFS上的文件。 JournalNode:如果一个JournalNode实例故障,命名空间和数据日志将无法持久化到磁盘,可能导致数据的损失或不可用。但HDFS会在其他JournalNode上保存备份,因此可以将故障的JournalNode恢复并重新平衡。 NameNode:如果NameNode部署方式为主备模式,则会导致产生NameNode主备倒换。单NameNode情况下,客户端将无法读取或写入任何数据到 HDFS,当前 MRS 部署HDFS时要求NameNode部署双机模式,不存在单实例场景。 Router:如果一个Router实例故障,客户端将无法访问该Router上的数据。但客户端可以使用其他Router或者直接访问后端NameNode上的数据,来解决此问题。 ZKFC:如果一个ZKFC实例故障,NameNode将不会持续且自动地故障转移,这将导致客户端无法读取或写入任何数据到HDFS。因此,需要在其他可用的ZKFC上启用自动故障转移,以便恢复整个HDFS集群的正常工作。
-
参考信息 /etc/fstab检查文件的检查标准 检查“/etc/fstab”文件中配置的分区,是否在“/proc/mounts”中能找到。 检查在“fstab”中配置的swap分区,是否和“/proc/swaps”一一对应。 /etc/hosts检查文件的检查标准 通过命令cat /etc/hosts查看是否存在以下几种情况,如果是,则说明该配置文件配置异常。 “/etc/hosts”文件不存在。 该主机的主机名不在文件中配置。 该主机名对应的IP不唯一。 该主机名对应的IP在ifconfig命令下的回显列表中不存在。 该文件中存在一个IP对应多个主机名的情况。 /etc/ssh/sshd_config检查文件的检查标准 通过命令vi /etc/ssh/sshd_config查看下面几个配置项是否正确。 “UseDNS”项必须配置为“no”。 “MaxStartups”必须配置为大于等于1000。 “PasswordAuthentication”和“ChallengeResponseAuthentication”两个配置项中必须至少有一项没有配置或者至少有一项配置为“yes”。
-
告警解释 系统按120秒周期性检测HBase在HDFS上的如下目录和文件是否存在,当检测到文件或者目录不存在时,上报该告警。当文件或目录都恢复后,告警恢复。 检查内容: 命名空间hbase在HDFS上的目录。 hbase.version文件。 hbase:meta表在HDFS上的目录、.tableinfo和.regioninfo文件。 hbase:namespace表在HDFS上的目录、.tableinfo和.regioninfo文件。 hbase:hindex表在HDFS上的目录、.tableinfo和.regioninfo文件。 hbase:acl表在HDFS上的目录、.tableinfo和.regioninfo文件(该表在普通模式集群默认不存在)。
-
参考信息 “/etc/fstab”检查文件的检查标准 检查“/etc/fstab”文件中配置的分区,是否在“/proc/mounts”中能找到,另外再检查在“fstab”中配置的swap分区,是否和“/proc/swaps”一一对应。 “/etc/hosts”检查文件的检查标准 通过命令cat /etc/hosts查看是否存在以下几种情况,如果是,则说明该配置文件配置异常。 “/etc/hosts”文件不存在。 该主机的主机名不在文件中配置。 该主机名对应的IP不唯一。 该主机名对应的IP在ipconfig列表中不存在。 该文件中存在一个IP对应多个主机名的情况。
-
处理步骤 登录MRS集群详情页面,选择“告警管理”。 在实时告警列表中,单击此告警所在行。 在“告警详情”区域,从“定位信息”中获取“HostName”和“PartitionName”,其中“HostName”为故障告警的节点,“PartitionName”为故障磁盘的分区。 联系硬件工程师确认为磁盘硬件故障之后,将服务器上故障磁盘在线拔出。 拔出磁盘后系统会上报“ALM-12014 分区丢失”告警,参考ALM-12014 设备分区丢失(2.x及以前版本)进行处理,处理完成后,本告警即可自动消除。
-
告警参数 参数名称 参数含义 告警源 产生告警的系统名称。例如:DWS。 集群名称 产生告警的集群名称。 定位信息 产生告警的集群ID、集群名称。例如,cluster_id: xxxx-xxxx-xxxx-xxxx,cluster_name: test_dws。 详细信息 产生告警的详细信息,包括集群、阈值信息。例如:CloudService=DWS, resourceId: xxxx-xxxx-xxxx-xxxx, resourceIdName: test_dws, first_alarm_time: 2022-11-26 11:14:58;集群test_dws的SQL探针阈值为2倍。该集群sql探针超过阈值的SQL探针有:'select xxx from xxxx'。 产生日期 产生告警的时间。 状态 当前告警的处理状态。
-
告警解释 GaussDB(DWS)通过资源池实现对内存、IO和CPU等资源的控制,并基于优先级调度机制实现资源管理和分配,对用户业务提供资源负载管理服务。某种资源紧张时,可能出现SQL语句阻塞排队,等待其他语句执行完毕后才能执行的现象,详情请参见动态负载管理下的CCN排队。 GaussDB(DWS)固定每5分钟检查默认资源池default_pool的队列阻塞情况。如果存在长时间阻塞无法执行的SQL语句(默认20分钟,可配置),则触发集群默认资源池队列阻塞告警;当集群不存在符合告警条件的SQL语句时,自动消除该告警。 如果一直存在能够引发告警的阻塞SQL,那么在24小时(可配置)后将再次发起告警。
-
告警参数 参数名称 参数含义 告警源 产生告警的系统名称,告警的详细分类 集群名称 产生告警的集群 定位信息 产生告警的集群ID,集群名称 告警信息 CloudService表示产生告警的云服务,依次为服务名,资源标识,资源名称,首次告警时间;格式化告警信息。示例:CloudServiceDWS,resourceId=xxxx-xxxx-xxxx-xxxx,resourceIdName=test_dws,first_alarm_time:2023-01-11:19:02:09;集群test_dws在20分钟内出现默认资源池队列阻塞 告警时间 告警的产生时间 状态 告警当前的活动状态
更多精彩内容
CDN加速
GaussDB
文字转换成语音
免费的服务器
如何创建网站
域名网站购买
私有云桌面
云主机哪个好
域名怎么备案
手机云电脑
SSL证书申请
云点播服务器
免费OCR是什么
电脑云桌面
域名备案怎么弄
语音转文字
文字图片识别
云桌面是什么
网址安全检测
网站建设搭建
国外CDN加速
SSL免费证书申请
短信批量发送
图片OCR识别
云数据库MySQL
个人域名购买
录音转文字
扫描图片识别文字
OCR图片识别
行驶证识别
虚拟电话号码
电话呼叫中心软件
怎么制作一个网站
Email注册网站
华为VNC
图像文字识别
企业网站制作
个人网站搭建
华为云计算
免费租用云托管
云桌面云服务器
ocr文字识别免费版
HTTPS证书申请
图片文字识别转换
国外域名注册商
使用免费虚拟主机
云电脑主机多少钱
鲲鹏云手机
短信验证码平台
OCR图片文字识别
SSL证书是什么
申请企业邮箱步骤
免费的企业用邮箱
云免流搭建教程
域名价格