检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
ALM-18028 TimeLineServer进程状态异常 告警解释 TimeLineServer每20秒周期性检查进程状态,当进程状态异常,且长时间未转换为正常状态时触发该告警。 进程状态正常后告警清除。 该告警仅适用于MRS 3.3.1及之后版本。 告警属性 告警ID 告警级别
Structured Streaming 任务提交方式变更 问题 用户提交结构流任务时,通常需要通过--jars命令指定kafka相关jar包的路径,例如--jars /kafkadir/kafka-clients-x.x.x.jar,/kafkadir/kafka_2.11-x
RegionServer实例异常,处于Restoring状态 问题背景 HBase启动失败,RegionServer一直处于Restoring状态。 原因分析 查看异常的RegionServer实例的运行日志(/var/log/Bigdata/hbase/rs/hbase-omm-XXX
ALM-38008 Kafka数据目录状态异常 告警解释 系统每60秒周期性检测Kafka数据目录状态,当检测到某数据目录状态异常时产生该告警。 平滑次数为1,当数据目录状态恢复正常后,告警恢复。 告警属性 告警ID 告警级别 是否自动清除 38008 重要 是 告警参数 参数名称
Structured Streaming 任务提交方式变更 问题 用户提交结构流任务时,通常需要通过--jars命令指定kafka相关jar包的路径,例如--jars /kafkadir/kafka-clients-x.x.x.jar,/kafkadir/kafka_2.11-x
ALM-18027 JobHistoryServer进程状态异常 告警解释 JobHistoryServer每20秒周期性检查进程状态,当进程状态异常,且长时间未转换为正常状态时触发该告警。 进程状态正常后告警清除。 该告警仅适用于MRS 3.3.1及之后版本。 告警属性 告警ID
DBService状态正常,组件无法连接DBService 问题背景与现象 上层组件连接DBService失败,检查DBService组件状态正常,两个实例状态也正常。 图1 DBService状态 原因分析 上层组件是通过dbservice.floatip连接的DBService。
Structured Streaming 任务提交方式变更 问题 用户提交结构流任务时,通常需要通过--jars命令指定kafka相关jar包的路径,例如--jars /kafkadir/kafka-clients-x.x.x.jar,/kafkadir/kafka_2.11-x
Manager关键特性 Manager关键特性:统一监控告警 Manager提供可视化、便捷的监控告警功能。用户可以快速获取集群关键性能指标,并评测集群健康状态,同时提供性能指标的定制化显示功能及指标转换告警方法。Manager可监控所有组件的运行情况,并在故障时实时上报告警。通过界
Structured Streaming 任务提交方式变更 问题 用户提交结构流任务时,通常需要通过--jars命令指定kafka相关jar包的路径,例如--jars /kafkadir/kafka-clients-x.x.x.jar,/kafkadir/kafka_2.11-x
通过管理控制台查看组件状态 登录MRS管理控制台。 选择“现有集群”,选中一个运行中的集群并单击集群名称,进入集群信息页面。 在MRS集群详情页面,单击“组件管理”,可查看服务操作状态、服务健康状态和服务配置状态等信息。 图1 查看集群组件状态 表1 管理控制台组件状态说明 指标项 状态 描述 操作状态
界面显示此告警的信息,包含名称、ID、级别、屏蔽状态和操作: 屏蔽状态包含:“屏蔽”和“显示”。 操作包含:“屏蔽”和“查看帮助”。 在屏蔽列表上方可筛选指定的告警。 设置已选中告警的屏蔽状态: 单击“屏蔽”后在弹出的对话框中单击“确定”,修改告警的屏蔽状态为“屏蔽”。 单击“取消屏蔽”后在弹
_ha.sh,查询当前HA管理的OLdap资源状态是否正常(单机模式下面,OLdap资源为Active_normal状态;双机模式下,OLdap资源在主节点为Active_normal状态,在备节点为Standby_normal状态。)。 是,执行4。 否,执行3。 参考ALM-12004
/joboverview 业务按状态进行分组,每个业务组都有一个小状态。 /joboverview/running 与“/ joboverview”相同,Job按状态进行分组,每个Job组都有一个小状态,但只包含当前运行的Job。 /joboverview/completed Job按状态进行分组,每个都有一个小状态的摘要。
HBase文件丢失导致Region状态长时间为RIT 用户问题 数据迁移到新集群后,HBase的Region状态为RIT或FAILED_OPEN。 原因分析 登录到集群的Core节点查看RegionServer日志,报错: “Region‘3b3ae24c65fc5094bc2a
/joboverview 业务按状态进行分组,每个业务组都有一个小状态。 /joboverview/running 与“/ joboverview”相同,Job按状态进行分组,每个Job组都有一个小状态,但只包含当前运行的Job。 /joboverview/completed Job按状态进行分组,每个都有一个小状态的摘要。
ALM-45276 RangerAdmin状态异常 告警解释 告警模块按60秒周期检测RangerAdmin状态,当检测到RangerAdmin状态异常时,系统产生此告警。 当系统检测到RangerAdmin状态恢复正常,且告警处理完成时,告警恢复。 告警属性 告警ID 告警级别
登录后可以查看Kafka集群监控页面、Topic监控页面、Consumer监控页面,例如: 图3 Kafka集群监控 图4 Topic监控 图5 Consumer监控 Kafka Eagle对接常见问题 问题现象: 无法获取Kafka CPU与内存监控信息日志提示。 java.io
/joboverview 业务按状态进行分组,每个业务组都有一个小状态。 /joboverview/running 与“/ joboverview”相同,Job按状态进行分组,每个Job组都有一个小状态,但只包含当前运行的Job。 /joboverview/completed Job按状态进行分组,每个都有一个小状态的摘要。
/joboverview 业务按状态进行分组,每个业务组都有一个小状态。 /joboverview/running 与“/ joboverview”相同,Job按状态进行分组,每个Job组都有一个小状态,但只包含当前运行的Job。 /joboverview/completed Job按状态进行分组,每个都有一个小状态的摘要。