云服务器内容精选
-
告警解释 系统以用户配置的告警周期(metrics.reporter.alarm.job.alarm.rocksdb.metrics.duration,默认180s)检查作业RocksDB监控数据,如果作业RocksDB的Get P95耗时达到用户配置的阈值(metrics.reporter.alarm.job.alarm.rocksdb.get.micros.threshold,默认值50000,单位微秒),则发送告警。当作业RocksDB的Get P95耗时时间小于或等于阈值,则告警恢复。
-
对系统的影响 根据告警的定位信息查看是哪个实例进程故障,不同的实例故障会产生不同的影响。 例如HDFS下的实例故障时会分别产生如下影响: DataNode:如果一个DataNode实例故障,客户端的读写操作将无法访问该DataNode上存储的数据块,可能导致数据的损失或不可用。但HDFS中的数据是冗余的,因此客户端可以从其他DataNode访问数据。 HttpFS:如果HttpFS实例故障,客户端将无法通过HTTP方式访问HDFS中的文件。但是客户端可以使用其他途径(如shell命令)来访问HDFS上的文件。 JournalNode:如果一个JournalNode实例故障,命名空间和数据日志将无法持久化到磁盘,可能导致数据的损失或不可用。但HDFS会在其他JournalNode上保存备份,因此可以将故障的JournalNode恢复并重新平衡。 NameNode:如果NameNode部署方式为主备模式,则会导致产生NameNode主备倒换。单NameNode情况下,客户端将无法读取或写入任何数据到 HDFS,当前 MRS 部署HDFS时要求NameNode部署双机模式,不存在单实例场景。 Router:如果一个Router实例故障,客户端将无法访问该Router上的数据。但客户端可以使用其他Router或者直接访问后端NameNode上的数据,来解决此问题。 ZKFC:如果一个ZKFC实例故障,NameNode将不会持续且自动地故障转移,这将导致客户端无法读取或写入任何数据到HDFS。因此,需要在其他可用的ZKFC上启用自动故障转移,以便恢复整个HDFS集群的正常工作。
-
参考信息 /etc/fstab检查文件的检查标准 检查“/etc/fstab”文件中配置的分区,是否在“/proc/mounts”中能找到。 检查在“fstab”中配置的swap分区,是否和“/proc/swaps”一一对应。 /etc/hosts检查文件的检查标准 通过命令cat /etc/hosts查看是否存在以下几种情况,如果是,则说明该配置文件配置异常。 “/etc/hosts”文件不存在。 该主机的主机名不在文件中配置。 该主机名对应的IP不唯一。 该主机名对应的IP在ifconfig命令下的回显列表中不存在。 该文件中存在一个IP对应多个主机名的情况。 /etc/ssh/sshd_config检查文件的检查标准 通过命令vi /etc/ssh/sshd_config查看下面几个配置项是否正确。 “UseDNS”项必须配置为“no”。 “MaxStartups”必须配置为大于等于1000。 “PasswordAuthentication”和“ChallengeResponseAuthentication”两个配置项中必须至少有一项没有配置或者至少有一项配置为“yes”。
-
告警解释 系统按120秒周期性检测HBase在HDFS上的如下目录和文件是否存在,当检测到文件或者目录不存在时,上报该告警。当文件或目录都恢复后,告警恢复。 检查内容: 命名空间hbase在HDFS上的目录。 hbase.version文件。 hbase:meta表在HDFS上的目录、.tableinfo和.regioninfo文件。 hbase:namespace表在HDFS上的目录、.tableinfo和.regioninfo文件。 hbase:hindex表在HDFS上的目录、.tableinfo和.regioninfo文件。 hbase:acl表在HDFS上的目录、.tableinfo和.regioninfo文件(该表在普通模式集群默认不存在)。
-
参考信息 “/etc/fstab”检查文件的检查标准 检查“/etc/fstab”文件中配置的分区,是否在“/proc/mounts”中能找到,另外再检查在“fstab”中配置的swap分区,是否和“/proc/swaps”一一对应。 “/etc/hosts”检查文件的检查标准 通过命令cat /etc/hosts查看是否存在以下几种情况,如果是,则说明该配置文件配置异常。 “/etc/hosts”文件不存在。 该主机的主机名不在文件中配置。 该主机名对应的IP不唯一。 该主机名对应的IP在ipconfig列表中不存在。 该文件中存在一个IP对应多个主机名的情况。
-
处理步骤 登录MRS集群详情页面,选择“告警管理”。 在实时告警列表中,单击此告警所在行。 在“告警详情”区域,从“定位信息”中获取“HostName”和“PartitionName”,其中“HostName”为故障告警的节点,“PartitionName”为故障磁盘的分区。 联系硬件工程师确认为磁盘硬件故障之后,将服务器上故障磁盘在线拔出。 拔出磁盘后系统会上报“ALM-12014 分区丢失”告警,参考ALM-12014 设备分区丢失(2.x及以前版本)进行处理,处理完成后,本告警即可自动消除。
更多精彩内容
CDN加速
GaussDB
文字转换成语音
免费的服务器
如何创建网站
域名网站购买
私有云桌面
云主机哪个好
域名怎么备案
手机云电脑
SSL证书申请
云点播服务器
免费OCR是什么
电脑云桌面
域名备案怎么弄
语音转文字
文字图片识别
云桌面是什么
网址安全检测
网站建设搭建
国外CDN加速
SSL免费证书申请
短信批量发送
图片OCR识别
云数据库MySQL
个人域名购买
录音转文字
扫描图片识别文字
OCR图片识别
行驶证识别
虚拟电话号码
电话呼叫中心软件
怎么制作一个网站
Email注册网站
华为VNC
图像文字识别
企业网站制作
个人网站搭建
华为云计算
免费租用云托管
云桌面云服务器
ocr文字识别免费版
HTTPS证书申请
图片文字识别转换
国外域名注册商
使用免费虚拟主机
云电脑主机多少钱
鲲鹏云手机
短信验证码平台
OCR图片文字识别
SSL证书是什么
申请企业邮箱步骤
免费的企业用邮箱
云免流搭建教程
域名价格