MAPREDUCE服务 MRS-进程被终止如何定位原因:处理步骤

时间:2024-08-27 10:23:52

处理步骤

打开操作系统审计日志,给审计日志增加记录kill命令的规则,即可定位是何进程发送的命令。

操作影响

  • 打印审计日志,会消耗一定操作系统性能,经过分析仅影响不到1%。
  • 打印审计日志,会占用一定磁盘空间。该日志打印量不大,MB级别,且默认配置有老化机制和检测磁盘剩余空间机制,不会占满磁盘。

定位方法

在DataNode进程可能发生重启的所有节点,分别执行以下操作。

  1. root用户登录节点,执行service auditd status命令,确认该服务状态。

    Checking for service auditd  running

    如果该服务未启动,执行service auditd restart命令重启该服务(无影响,耗时不到1秒)。

    Shutting down auditd done
    Starting auditd done

  2. 审计日志临时增加kill命令审计规则。

    增加规则:

    auditctl -a exit,always -F arch=b64 -S kill -S tkill -S tgkill -F a1!=0 -k process_killed

    查看规则:

    auditctl -l

  3. 当进程有异常被终止后,使用ausearch -k process_killed命令,可以查询终止历史。

    a0是被终止进程的PID(16进制),a1是kill命令的信号量。

验证方法

  1. MRS 页面重启该节点一个实例,如DataNode。
  2. 执行ausearch -k process_killed命令,确认是否有日志打印。

    例如以下命令ausearch -k process_killed |grep “.sh” ,可以看到是hdfs-daemon-ada* 脚本,关闭的DataNode进程。

停止审计kill命令方法

  1. 执行service auditd restart命令,即会清理临时增加的kill命令审计日志。
  2. 执行auditctl -l命令,如果没有相关信息,即说明已清理该规则。
support.huaweicloud.com/trouble-mrs/mrs_03_0137.html