MAPREDUCE服务 MRS-OMS健康检查指标项说明:进程运行时间

时间:2024-04-22 14:37:52

进程运行时间

指标项名称:NodeAgent运行时间、Controller运行时间和Tomcat运行时间

指标项含义:检查NodeAgent、Controller、Tomcat进程的运行时间。如果小于半小时(即1800s),则进程可能重启过,建议半小时后再检查。如果多次检查,进程的运行时间都小于半小时,说进程状态异常。

恢复指导:

  1. 登录检查结果不健康的节点,执行su - omm切换到omm用户。
  2. 根据进程名称查看进程pid,执行命令:

    ps -ef | grep NodeAgent

  3. 根据pid查看进程启动时间,执行命令:

    ps -p pid -o lstart

  4. 判断进程启动时间是否正常。如果进程一直反复重启,执行5
  5. 查看对应模块日志,分析重启原因。

    NodeAgent运行时间异常,检查相关日志/var/log/Bigdata/nodeagent/agentlog/agent.log

    Controller运行时间异常,检查相关日志/var/log/Bigdata/controller/controller.log

    Tomcat运行时间异常,检查相关日志/var/log/Bigdata/tomcat/web.log

  6. 如果通过日志无法排除问题,请联系运维人员处理,并发送已收集的故障日志信息。
support.huaweicloud.com/usermanual-mrs/mrs_01_0294.html