云服务器内容精选
-
OMS 状态检查 指标项名称:OMS状态检查 指标项含义:OMS状态检查包括HA状态检查和资源状态检查。 HA状态取值为active、standby和NULL,分别表示主节点、备节点和未知。资源状态取值为normal、abnormal和NULL,分别表示正常、异常和未知。HA状态为NULL时,认为不健康;资源状态为NULL或abnormal时,认为不健康。 表1 OMS状态说明表 名称 说明 HA状态 active表示主节点 standby表示备节点 NULL表示未知 资源状态 normal表示所有资源都正常 abnormal表示有异常资源 NULL表示未知 恢复指导: 登录主管理节点,执行su - omm切换到omm用户。执行${CONTROLLER_HOME}/sbin/status-oms.sh查看OMS状态。 如果HA状态为NULL,可能是系统在重启,这个一般是中间状态,HA后续会自动调整为正常状态。 如果资源状态异常,则说明有Manager的某些组件资源异常, 可具体查看acs、aos、cep、controller、feed_watchdog、fms、guassDB、httpd、iam、ntp、okerberos、oldap、pms、tomcat等组件状态是否正常。 如果Manager组件资源异常,参见Manager组件状态检查进行处理。
-
Manager组件状态检查 指标项名称:Manager组件状态检查 指标项含义:Manager组件状态检查包括组件资源运行状态和资源HA状态。资源运行状态,取值为Normal、Abnormal等;资源HA状态,取值为Normal、Exception等。Manager组件包含acs、aos、cep、controller、feed_watchdog、floatip、fms、gaussDB、heartBeatCheck、httpd、iam、ntp、okerberos、oldap、pms、tomcat等。当运行状态和HA状态不是Normal时,认为指标不健康。 表2 Manager组件状态说明表 名称 说明 资源运行状态 Normal表示正常运行 Abnormal表示运行异常 Stopped表示停止 Unknown表示状态未知 Starting表示正在启动 Stopping表示正在停止 Active_normal表示主正常运行 Standby_normal表示备正常运行 Raising_active表示正在升主 Lowing_standby表示正在降备 No_action表示没有该动作 Repairing表示正在修复 NULL表示未知 资源HA状态 Normal表示正常 Exception表示故障 Non_steady表示非稳态 Unknown表示未知 NULL表示未知 恢复指导: 登录主管理节点,执行su - omm切换到omm用户。执行${CONTROLLER_HOME}/sbin/status-oms.sh查看OMS状态。 如果floatip、okerberos、oldap等异常,可参见告警ALM-12002、ALM-12004、ALM-12005分别进行处理。 如果是其他资源异常,建议查看相关异常模块的日志。 controller资源异常:查看异常节点的/var/log/Bigdata/controller/controller.log。 cep资源异常:查看异常节点的/var/log/Bigdata/omm/oms/cep/cep.log。 aos资源异常:查看异常节点的/var/log/Bigdata/controller/aos/aos.log。 feed_watchdog资源异常:查看异常节点的/var/log/Bigdata/watchdog/watchdog.log。 httpd资源异常:查看异常节点的/var/log/Bigdata/httpd/error_log。 fms资源异常:查看异常节点的/var/log/Bigdata/omm/oms/fms/fms.log。 pms资源异常:查看异常节点的/var/log/Bigdata/omm/oms/pms/pms.log。 iam资源异常:查看异常节点的/var/log/Bigdata/omm/oms/iam/iam.log。 gaussDB资源异常:查看异常节点的/var/log/Bigdata/omm/oms/db/omm_gaussdba.log。 ntp资源异常:查看异常节点的/var/log/Bigdata/omm/oms/ha/scriptlog/ha_ntp.log。 tomcat资源异常:查看异常节点的/var/log/Bigdata/tomcat/catalina.log。 如果通过日志无法排除问题,请联系公有云运维人员处理,并发送已收集的故障日志信息。
-
OMA运行状态 指标项名称:OMA运行状态 指标项含义:检查OMA的运行状态,状态结果包括运行和停止两种状态,如果OMA状态为停止,则认为不健康。 恢复指导: 登录检查结果不健康的节点,然后执行su - omm切换到omm用户。 执行${OMA_PATH}/restart_oma_app,手工启动OMA,然后重新检查。如果检查结果仍然不健康,则执行3。 如果手工启动OMA无法恢复,建议查看分析OMA日志“/var/log/Bigdata/omm/oma/omm_agent.log”。 如果通过日志无法排除问题,请联系运维人员处理,并发送已收集的故障日志信息。
-
进程运行时间 指标项名称:NodeAgent运行时间、Controller运行时间和Tomcat运行时间 指标项含义:检查NodeAgent、Controller、Tomcat进程的运行时间。如果小于半小时(即1800s),则进程可能重启过,建议半小时后再检查。如果多次检查,进程的运行时间都小于半小时,说进程状态异常。 恢复指导: 登录检查结果不健康的节点,执行su - omm切换到omm用户。 根据进程名称查看进程pid,执行命令: ps -ef | grep NodeAgent 根据pid查看进程启动时间,执行命令: ps -p pid -o lstart 判断进程启动时间是否正常。如果进程一直反复重启,执行5 查看对应模块日志,分析重启原因。 NodeAgent运行时间异常,检查相关日志/var/log/Bigdata/nodeagent/agentlog/agent.log。 Controller运行时间异常,检查相关日志/var/log/Bigdata/controller/controller.log。 Tomcat运行时间异常,检查相关日志/var/log/Bigdata/tomcat/web.log。 如果通过日志无法排除问题,请联系运维人员处理,并发送已收集的故障日志信息。
-
各节点与主管理节点之间SSH互信 指标项名称:各节点与主管理节点之间SSH互信 指标项含义:检查SSH互信是否正常。如果使用omm用户,在主管理节点可以通过SSH登录其他节点且不需要输入密码,则认为健康;否则,不健康。或者主管理节点SSH可以直接登录其他节点,但在其他节点无法通过SSH登录主管理节点,则也认为不健康。 恢复指导: 如果该指标项检查异常,表示各节点与主管理节点之间SSH互信异常。SSH互信异常时,首先检查“/home/omm”目录的权限是否为omm。非omm的目录权限可能导致SSH互信异常,建议执行chown omm:wheel修改权限后重新检查。如果“/home/omm”目录权限正常,则执行2。 SSH互信异常一般会导致Controller和NodeAgent之间心跳异常,进而出现节点故障的告警。这时可参见告警ALM-12006进行处理。
-
工作节点数 指标项名称:Supervisor数 指标项含义:检查集群中可用的Supervisor数,若集群中可用的Supervisor数小于1,则认为不健康。 恢复指导:如果该指标项异常,进入Streaming服务实例页面,单击不可用Supervisor实例的“主机名”,在“概要信息”中查看主机的健康状态,若为“良好”,则参见“ALM-12007 进程故障”告警进行处理;若不为“良好”,则参见“ALM-12006 节点故障”告警进行处理。
更多精彩内容
CDN加速
GaussDB
文字转换成语音
免费的服务器
如何创建网站
域名网站购买
私有云桌面
云主机哪个好
域名怎么备案
手机云电脑
SSL证书申请
云点播服务器
免费OCR是什么
电脑云桌面
域名备案怎么弄
语音转文字
文字图片识别
云桌面是什么
网址安全检测
网站建设搭建
国外CDN加速
SSL免费证书申请
短信批量发送
图片OCR识别
云数据库MySQL
个人域名购买
录音转文字
扫描图片识别文字
OCR图片识别
行驶证识别
虚拟电话号码
电话呼叫中心软件
怎么制作一个网站
Email注册网站
华为VNC
图像文字识别
企业网站制作
个人网站搭建
华为云计算
免费租用云托管
云桌面云服务器
ocr文字识别免费版
HTTPS证书申请
图片文字识别转换
国外域名注册商
使用免费虚拟主机
云电脑主机多少钱
鲲鹏云手机
短信验证码平台
OCR图片文字识别
SSL证书是什么
申请企业邮箱步骤
免费的企业用邮箱
云免流搭建教程
域名价格