云服务器内容精选

华为云首页用户手册

MRS集群告警处理参考

MAPREDUCE服务 MRS-ALM-12033 慢盘故障（2.x及以前版本）:参考信息

参考信息相关参数获取方法如下： MRS 2.x及以前版本：当前慢盘故障告警的检查原理为：在Linux平台上判断IO是否存在问题，输入命令iostat -x -t 1，观察svctm的值（如图所示红色框中的部分）。 svctm值表示该磁盘IO服务时间。 MRS 1.9.3.10及之后的补丁版本： svctm的获取方法： svctm = (tot_ticks_new - tot_ticks_old) / (rd_ios_new + wr_ios_new - rd_ios_old - wr_ios_old) 当检测周期粒度为30秒时，如果rd_ios_new + wr_ios_new - rd_ios_old - wr_ios_old = 0，则svctm = 0。当检测周期粒度为300秒时，在rd_ios_new + wr_ios_new - rd_ios_old - wr_ios_old = 0的情况下，如果tot_ticks_new - tot_ticks_old = 0则svctm = 0，否则svctm值为无穷大。参数获取如下：系统每3秒执行一次cat /proc/diskstats命令采集数据。例如：连续两次采集的数据中：第一次采集的数据中，第4列的数字是“rd_ios_old”，第8列的数字是“wr_ios_old”，第13列的数字是“tot_ticks_old”。第二次采集的数据中，第4列的数字是“rd_ios_new”，第8列的数字是“wr_ios_new”，第13列的数字是“tot_ticks_new”。则上图中svctm值为： (19571460 - 19569526) / (1101553 + 28747977 - 1101553 - 28744856) = 0.6197

MAPREDUCE服务 MRS MRS集群告警处理参考
MAPREDUCE服务 MRS-ALM-12033 慢盘故障（2.x及以前版本）:告警解释

告警解释 MRS 2.x及以前版本：对于HDD盘，满足以下任意条件时触发告警：系统每3秒执行一次iostat命令，在30秒内连续10周期svctm值超过1000ms。系统每3秒执行一次iostat命令，在300秒内有超过60%的IO超过150ms。对于SSD盘，满足以下任意条件时触发告警：系统每3秒执行一次iostat命令，在30秒内连续10周期svctm值超过1000ms。系统每3秒执行一次iostat命令，在300秒内有超过60%的IO超过20ms。当系统连续15分钟不满足以上所有条件时，告警自动清除。 MRS 1.9.3.10及之后的补丁的版本：对于HDD盘，满足以下任意条件时触发告警：系统默认每3秒采集一次数据，在30秒内至少7个采集周期的svctm时延达到1000ms。系统默认每3秒采集一次数据，在300秒内至少50%次采集到的svctm时延达到150ms。对于SSD盘，满足以下任意条件时触发告警：系统默认每3秒采集一次数据，在30秒内至少7个周期的svctm时延达到1000ms。系统默认每3秒采集一次数据，在300秒内至少50%次检测到的svctm时延达到20ms。系统采集周期为3秒，检测周期为30秒或300秒，当系统连续3个30秒、300秒的周期均不满足以上条件时，告警自动清除。相关参数获取方法请参考参考信息。

MAPREDUCE服务 MRS MRS集群告警处理参考
MapReduce服务 MRS-ALM-12061 进程使用率超过阈值:告警解释

告警解释系统每30秒周期性检测omm进程使用情况，执行ps -o nlwp,pid,args, -u omm | awk '{sum+=$1} END {print "", sum}'命令，获取当前omm用户并发的所有进程数，在omm用户下，执行ulimit -u，获取omm用户可以同时打开的进程最大数。结果相除，获取到对应的omm用户进程使用率。进程使用率默认提供一个阈值范围。当检测到进程使用率超出阈值范围时产生该告警。平滑次数为3，进程使用率小于或等于阈值时，告警恢复；如果当前平滑次数大于1，进程使用率小于或等于阈值的90%时，告警恢复。

MapReduce服务 MRS MRS集群告警处理参考