检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
ALM-38007 Kafka默认用户状态异常 告警解释 系统每60秒周期性检测Kafka服务默认用户,当检测到该用户异常时发送此告警。 平滑次数为1,当用户状态恢复后,告警恢复。 告警属性 告警ID 告警级别 是否自动清除 38007 紧急 是 告警参数 参数名称 参数含义 来源
产生告警的服务名称。 角色名 产生告警的角色名称。 主机名 产生告警的主机名。 Trigger Condition 系统当前指标取值满足自定义的告警设置条件。 对系统的影响 导致PolicySync响应缓慢。 可能原因 该节点PolicySync实例堆内存使用率过大,或配置的堆内存不合理,导致进程GC频繁。
ALM-45331 Presto Worker1线程数超过阈值 告警解释 系统会检查Presto Coordinator和Worker实例的线程使用情况,默认阈值为1024个。如果Presto Coordinator或Worker的线程数超过阈值,则发出告警。 告警属性 告警ID
ALM-45332 Presto Worker2线程数超过阈值 告警解释 系统会检查Presto Coordinator和Worker实例的线程使用情况,默认阈值为1024个。如果Presto Coordinator或Worker的线程数超过阈值,则发出告警。 告警属性 告警ID
是否自动清除 45641 重要 是 告警参数 参数名称 参数含义 来源 产生告警的集群或系统名称。 服务名 产生告警的服务名称。 角色名 产生告警的角色名称。 主机名 产生告警的主机名。 对系统的影响 备FlinkServer的配置文件没有更新,主备倒换之后,部分配置可能会丢失,会
Flink HA证书文件失效 本章节适用于MRS 3.3.0及以后版本。 告警解释 Flink首次或者每天01:00:00开始健康检查时,检查当前系统中的HA证书文件是否失效(证书是否存在,证书格式是否正确),如果证书文件失效,产生该告警。证书文件恢复,告警恢复。 告警属性 告警ID 告警级别
默认情况下,组件间的通道是不加密的。用户可以配置如下参数,设置安全通道为加密的。 参数修改入口:在FusionInsight Manager系统中,选择“集群 > 服务 > Kafka > 配置”,展开“全部配置”页签,在搜索框中输入相关参数名称。 配置后应重启对应服务使参数生效。
Agent异常(2.x及以前版本) 告警解释 Flume Agent监控模块对Flume Agent状态进行监控,当Flume Agent进程故障时,系统产生此告警。 当检测到Flume Agent进程故障恢复,且告警处理完成时,告警恢复。 告警属性 告警ID 告警级别 可自动清除 24001
Server的连接端口状态进行监控。当Flume Client连接到Flume Server的某个端口,Client端连续3分钟未与Server端连接时,系统产生此告警。 当Flume Server收到Flume Client连接消息,告警恢复。 告警属性 告警ID 告警级别 可自动清除 24003
ALM-43006 JobHistory进程堆内存使用超出阈值(2.x及以前版本) 告警解释 系统每30秒周期性检测JobHistory进程堆内存使用状态,当检测到JobHistory进程堆内存使用率超出阈值(最大内存的90%)时产生该告警。 告警属性 告警ID 告警级别 可自动清除
删除Hive on HBase表中的单行记录 操作场景 由于底层存储系统的原因,Hive并不能支持对单条表数据进行删除操作,但在Hive on HBase功能中,MRS Hive提供了对HBase表的单条数据的删除功能,通过特定的语法,Hive可以将自己的HBase表中符合条件的一条或者多条数据清除。
CBO功能优化多表查询效率 操作场景 在Hive中执行多表Join时,Hive支持开启CBO(Cost Based Optimization),系统会自动根据表的统计信息,例如数据量、文件数等,选出合适计划提高多表Join的效率。Hive需要先收集表的统计信息后才能使CBO正确的优化。
本章节内容适用于MRS 3.x及后续版本。 前提条件 如果当前使用Kafka客户端,需要满足以下条件: MRS集群管理员已明确业务需求,并准备一个系统用户。 已安装Kafka客户端。 使用Kafka客户端查看当前消费情况 以客户端安装用户,登录安装Kafka客户端的节点。 切换到Kafk
产生告警的服务名称。 角色名 产生告警的角色名称。 主机名 产生告警的主机名。 Trigger Condition 系统当前指标取值满足自定义的告警设置条件。 对系统的影响 ZooKeeper可用内存不足,可能会造成内存溢出导致服务崩溃,可能导致上游组件(例如Yarn、Flink、Spark等)业务运行失败。
产生告警的服务名称。 角色名 产生告警的角色名称。 主机名 产生告警的主机名。 Trigger condition 系统当前指标取值满足自定义的告警设置条件。 对系统的影响 GC时间超出阈值,会影响到Hive数据的读写,可能导致任务执行变慢,甚至服务异常重启。 可能原因 该节点Hi
产生告警的服务名称。 角色名 产生告警的角色名称。 主机名 产生告警的主机名。 Trigger Condition 系统当前指标取值满足自定义的告警设置条件。 对系统的影响 正在运行的调度任务会阻塞,无法提交新的调度任务。 可能原因 Yarn服务异常。 Oozie连接Yarn异常。
ALM-18003 NodeManager不健康 告警解释 系统每30秒周期性检测不健康NodeManager节点,并把不健康节点数和阈值相比较。“不健康的节点数”指标默认提供一个阈值。当检测到“不健康的节点数”的值超出阈值时产生该告警。 用户可通过选择“集群 > 待操作集群的名称
产生告警的服务名称。 角色名 产生告警的角色名称。 主机名 产生告警的主机名。 Trigger Condition 系统当前指标取值满足自定义的告警设置条件。 对系统的影响 ResourceManager可用直接内存不足,可能会造成内存溢出导致服务崩溃。 可能原因 该节点Resou
ALM-19018 HBase合并队列超出阈值 告警解释 系统每30秒周期性检测HBase服务的compaction队列长度,默认当连续3次检测到HBase服务的compaction队列长度超过告警的阈值(默认100)时产生该告警。当compaction队列长度小于告警的阈值时,告警恢复。
产生告警的服务名称。 角色名 产生告警的角色名称。 主机名 产生告警的主机名。 Trigger Condition 系统当前指标取值满足自定义的告警设置条件。 对系统的影响 导致Loader服务响应缓慢。 可能原因 会导致频繁FULL GC,Loader服务响应缓慢,严重时甚至有可