MAPREDUCE服务 MRS-进程被终止如何定位原因:原因分析

时间:2024-08-27 10:23:52

原因分析

常见的进程被异常终止有2种原因:

  • Java进程OOM被终止

    一般Java进程都会配置OOM Killer,当检测到OOM会自动终止进程,OOM日志通常被打印到out日志中,此时可以看运行日志(如DataNode的日志路径为 /var/log/Bigdata/hdfs/dn/hadoop-omm-datanode-主机名.log),看是否有OutOfMemory内存溢出的打印。

  • 被其他进程终止,或者人为终止。

    排查DataNode运行日志(/var/log/Bigdata/hdfs/dn/hadoop-omm-datanode-主机名.log),是先收到“RECEIVED SIGNAL 15”再健康检查失败。

    即如下示例中DataNode先于 11:04:48被终止,然后过2分钟,于11:06:52启动。
    2018-12-06 11:04:48,433 | ERROR | SIGTERM handler | RECEIVED SIGNAL 15: SIGTERM | LogAdapter.java:69
    2018-12-06 11:04:48,436 | INFO  | Thread-1 | SHUTDOWN_MSG:
    /************************************************************
    SHUTDOWN_MSG: Shutting down DataNode at 192-168-235-85/192.168.235.85
    ************************************************************/ | LogAdapter.java:45
    2018-12-06 11:06:52,744 | INFO  | main | STARTUP_MSG:

    以上日志说明,DataNode先被其他进程关闭,然后健康检查失败,2分钟后,被NodeAgent启动DataNode进程。

support.huaweicloud.com/trouble-mrs/mrs_03_0137.html