MAPREDUCE服务 MRS-ALM-12033 慢盘故障(2.x及以前版本):参考信息

时间:2025-02-18 11:25:32

参考信息

相关参数获取方法如下:

  • MRS 2.x及以前版本:

    当前慢盘故障告警的检查原理为:

    在Linux平台上判断IO是否存在问题,输入命令iostat -x -t 1,观察svctm的值(如图所示红色框中的部分)。

    svctm值表示该磁盘IO服务时间。

  • MRS 1.9.3.10及之后的补丁版本:

    svctm的获取方法:

    svctm = (tot_ticks_new - tot_ticks_old) / (rd_ios_new + wr_ios_new - rd_ios_old - wr_ios_old)

    当检测周期粒度为30秒时,如果rd_ios_new + wr_ios_new - rd_ios_old - wr_ios_old = 0,则svctm = 0。

    当检测周期粒度为300秒时,在rd_ios_new + wr_ios_new - rd_ios_old - wr_ios_old = 0的情况下,如果tot_ticks_new - tot_ticks_old = 0则svctm = 0,否则svctm值为无穷大。

参数获取如下:

系统每3秒执行一次cat /proc/diskstats命令采集数据。例如:

连续两次采集的数据中:

第一次采集的数据中,第4列的数字是“rd_ios_old”,第8列的数字是“wr_ios_old”,第13列的数字是“tot_ticks_old”。

第二次采集的数据中,第4列的数字是“rd_ios_new”,第8列的数字是“wr_ios_new”,第13列的数字是“tot_ticks_new”。

则上图中svctm值为:

(19571460 - 19569526) / (1101553 + 28747977 - 1101553 - 28744856) = 0.6197

support.huaweicloud.com/usermanual-mrs/alm_12033.html