健康检查管理-华为云

MAPREDUCE服务 MRS-OMS健康检查指标项说明:OMS状态检查

OMS 状态检查指标项名称：OMS状态检查指标项含义：OMS状态检查包括HA状态检查和资源状态检查。 HA状态取值为active、standby和NULL，分别表示主节点、备节点和未知。资源状态取值为normal、abnormal和NULL，分别表示正常、异常和未知。HA状态为NULL时，认为不健康；资源状态为NULL或abnormal时，认为不健康。表1 OMS状态说明表名称说明 HA状态 active表示主节点 standby表示备节点 NULL表示未知资源状态 normal表示所有资源都正常 abnormal表示有异常资源 NULL表示未知恢复指导：登录主管理节点，执行su - omm切换到omm用户。执行${CONTROLLER_HOME}/sbin/status-oms.sh查看OMS状态。如果HA状态为NULL，可能是系统在重启，这个一般是中间状态，HA后续会自动调整为正常状态。如果资源状态异常，则说明有Manager的某些组件资源异常，可具体查看acs、aos、cep、controller、feed_watchdog、fms、guassDB、httpd、iam、ntp、okerberos、oldap、pms、tomcat等组件状态是否正常。如果Manager组件资源异常，参见Manager组件状态检查进行处理。

MAPREDUCE服务 MRS 健康检查管理

MAPREDUCE服务 MRS-OMS健康检查指标项说明:Manager组件状态检查

Manager组件状态检查指标项名称：Manager组件状态检查指标项含义：Manager组件状态检查包括组件资源运行状态和资源HA状态。资源运行状态，取值为Normal、Abnormal等；资源HA状态，取值为Normal、Exception等。Manager组件包含acs、aos、cep、controller、feed_watchdog、floatip、fms、gaussDB、heartBeatCheck、httpd、iam、ntp、okerberos、oldap、pms、tomcat等。当运行状态和HA状态不是Normal时，认为指标不健康。表2 Manager组件状态说明表名称说明资源运行状态 Normal表示正常运行 Abnormal表示运行异常 Stopped表示停止 Unknown表示状态未知 Starting表示正在启动 Stopping表示正在停止 Active_normal表示主正常运行 Standby_normal表示备正常运行 Raising_active表示正在升主 Lowing_standby表示正在降备 No_action表示没有该动作 Repairing表示正在修复 NULL表示未知资源HA状态 Normal表示正常 Exception表示故障 Non_steady表示非稳态 Unknown表示未知 NULL表示未知恢复指导：登录主管理节点，执行su - omm切换到omm用户。执行${CONTROLLER_HOME}/sbin/status-oms.sh查看OMS状态。如果floatip、okerberos、oldap等异常，可参见告警ALM-12002、ALM-12004、ALM-12005分别进行处理。如果是其他资源异常，建议查看相关异常模块的日志。 controller资源异常：查看异常节点的/var/log/Bigdata/controller/controller.log。 cep资源异常：查看异常节点的/var/log/Bigdata/omm/oms/cep/cep.log。 aos资源异常：查看异常节点的/var/log/Bigdata/controller/aos/aos.log。 feed_watchdog资源异常：查看异常节点的/var/log/Bigdata/watchdog/watchdog.log。 httpd资源异常：查看异常节点的/var/log/Bigdata/httpd/error_log。 fms资源异常：查看异常节点的/var/log/Bigdata/omm/oms/fms/fms.log。 pms资源异常：查看异常节点的/var/log/Bigdata/omm/oms/pms/pms.log。 iam资源异常：查看异常节点的/var/log/Bigdata/omm/oms/iam/iam.log。 gaussDB资源异常：查看异常节点的/var/log/Bigdata/omm/oms/db/omm_gaussdba.log。 ntp资源异常：查看异常节点的/var/log/Bigdata/omm/oms/ha/scriptlog/ha_ntp.log。 tomcat资源异常：查看异常节点的/var/log/Bigdata/tomcat/catalina.log。如果通过日志无法排除问题，请联系公有云运维人员处理，并发送已收集的故障日志信息。

MAPREDUCE服务 MRS 健康检查管理

MAPREDUCE服务 MRS-OMS健康检查指标项说明:OMA运行状态

OMA运行状态指标项名称：OMA运行状态指标项含义：检查OMA的运行状态，状态结果包括运行和停止两种状态，如果OMA状态为停止，则认为不健康。恢复指导：登录检查结果不健康的节点，然后执行su - omm切换到omm用户。执行${OMA_PATH}/restart_oma_app，手工启动OMA，然后重新检查。如果检查结果仍然不健康，则执行3。如果手工启动OMA无法恢复，建议查看分析OMA日志“/var/log/Bigdata/omm/oma/omm_agent.log”。如果通过日志无法排除问题，请联系运维人员处理，并发送已收集的故障日志信息。

MAPREDUCE服务 MRS 健康检查管理

MAPREDUCE服务 MRS-OMS健康检查指标项说明:进程运行时间

进程运行时间指标项名称：NodeAgent运行时间、Controller运行时间和Tomcat运行时间指标项含义：检查NodeAgent、Controller、Tomcat进程的运行时间。如果小于半小时（即1800s），则进程可能重启过，建议半小时后再检查。如果多次检查，进程的运行时间都小于半小时，说进程状态异常。恢复指导：登录检查结果不健康的节点，执行su - omm切换到omm用户。根据进程名称查看进程pid，执行命令： ps -ef | grep NodeAgent 根据pid查看进程启动时间，执行命令： ps -p pid -o lstart 判断进程启动时间是否正常。如果进程一直反复重启，执行5 查看对应模块日志，分析重启原因。 NodeAgent运行时间异常，检查相关日志/var/log/Bigdata/nodeagent/agentlog/agent.log。 Controller运行时间异常，检查相关日志/var/log/Bigdata/controller/controller.log。 Tomcat运行时间异常，检查相关日志/var/log/Bigdata/tomcat/web.log。如果通过日志无法排除问题，请联系运维人员处理，并发送已收集的故障日志信息。

MAPREDUCE服务 MRS 健康检查管理

MAPREDUCE服务 MRS-OMS健康检查指标项说明:各节点与主管理节点之间SSH互信

各节点与主管理节点之间SSH互信指标项名称：各节点与主管理节点之间SSH互信指标项含义：检查SSH互信是否正常。如果使用omm用户，在主管理节点可以通过SSH登录其他节点且不需要输入密码，则认为健康；否则，不健康。或者主管理节点SSH可以直接登录其他节点，但在其他节点无法通过SSH登录主管理节点，则也认为不健康。恢复指导：如果该指标项检查异常，表示各节点与主管理节点之间SSH互信异常。SSH互信异常时，首先检查“/home/omm”目录的权限是否为omm。非omm的目录权限可能导致SSH互信异常，建议执行chown omm:wheel修改权限后重新检查。如果“/home/omm”目录权限正常，则执行2。 SSH互信异常一般会导致Controller和NodeAgent之间心跳异常，进而出现节点故障的告警。这时可参见告警ALM-12006进行处理。

MAPREDUCE服务 MRS 健康检查管理

MapReduce服务 MRS-Storm健康检查指标项说明:工作节点数

工作节点数指标项名称：Supervisor数指标项含义：检查集群中可用的Supervisor数，若集群中可用的Supervisor数小于1，则认为不健康。恢复指导：如果该指标项异常，进入Streaming服务实例页面，单击不可用Supervisor实例的“主机名”，在“概要信息”中查看主机的健康状态，若为“良好”，则参见“ALM-12007 进程故障”告警进行处理；若不为“良好”，则参见“ALM-12006 节点故障”告警进行处理。

MapReduce服务 MRS 健康检查管理

云服务器内容精选

健康检查管理

7*24

备案

专业服务

退订

建议反馈

售前咨询热线