检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
本章节仅适用于MRS 3.1.2及至MRS 3.3.0版本。 告警解释 系统以用户配置的告警周期检查Checkpoint连续失败次数,如果Flink作业Checkpoint连续失败次数达到用户配置的阈值,则发送告警。当Checkpoint恢复正常,或者作业重启成功,则告警恢复。 告警属性 告警ID
系统当前指标取值满足自定义的告警设置条件。 对系统的影响 后台Background线程数过多,导致新提交的任务无法及时运行。 可能原因 Hive后台的background线程池使用率过大。 HiveServer后台的background线程池执行的任务过多。 HiveServer后台的background线程池的容量过小。
Mapping,未配置WhiteList参数,该任务所配置的Schema的CDL任务未同步的表过多,导致CDL任务名称创建时分区过多。 处理步骤 登录FusionInsight Manager,选择“集群 > 服务 > CDL”,单击“CDLService UI”右侧的超链接进入CDLService WebUI界面,
DBService > 数据库 > 数据库连接数使用率 (DBServer)”,单击平滑次数旁的铅笔标志,更改告警的平滑次数,如图3所示。 平滑次数:连续检查多少次超过阈值,则发送告警。 图3 设置告警平滑次数 根据数据库连接数使用率的实际情况,选择“运维 > 告警 > 阈值设置 > 待操作集群的名称
ALM-45437 ClickHouse表part数量过多 告警解释 当part数量超过阈值part_num_threshold时,系统上报此告警。 当part数量低于阈值part_num_threshold时,告警自动消除。 告警属性 告警ID 告警级别 是否可自动清除 45437
系统默认每3秒采集一次数据,在30秒内至少7个采集周期的svctm时延达到6秒。 系统默认每3秒采集一次数据,在30秒内至少10个采集周期,磁盘队列深度(avgqu-sz)> 0,iops = 0或带宽 = 0,且ioutil > 99%。 系统默认每3秒采集一次数据,在300秒内至
服务连接数状态,当检测到ZooKeeper实例连接数超出阈值(最大连接数的80%)时产生该告警。 平滑次数为1,ZooKeeper可用连接数小于或等于阈值时,告警恢复;平滑次数大于1,ZooKeeper可用连接数小于或等于阈值的90%时,告警恢复。 告警属性 告警ID 告警级别 是否自动清除
存使用状态,当检测到ZooKeeper实例直接内存使用率超出阈值(最大内存的80%)时产生该告警。 平滑次数为1,ZooKeeper直接内存使用率小于阈值时,告警恢复;平滑次数大于1,ZooKeeper直接内存使用率小于阈值的80%时,告警恢复。 告警属性 告警ID 告警级别 是否自动清除
用时间,当连续3次检测到Broker进程的垃圾回收(GC)时间超出阈值(默认12秒)时,产生该告警。 平滑次数为1,垃圾回收(GC)时间小于或等于阈值时,告警恢复;平滑次数大于1,垃圾回收(GC)时间小于或等于阈值的90%时,告警恢复。 告警属性 告警ID 告警级别 是否自动清除
ClickHouse实例分布式表检查模块300秒检查一次,如果连续失败的次数超过配置的阈值,则触发上报告警,此时ClickHouse写入分布式表的节点无法正常发送数据文件到远端分片节点。 当系统检测到连续失败的次数低于阈值时,告警恢复。 告警属性 告警ID 告警级别 是否可自动清除 45445
用户可通过“系统设置 > 阈值配置 > 设备 > 主机 > 网络读信息 > 网络读包率信息 > 读包错误率”修改阈值。 平滑次数为1,网络读包错误率小于或等于阈值时,告警恢复;平滑次数大于1,网络读包错误率小于或等于阈值的90%时,告警恢复。 告警属性 告警ID 告警级别 可自动清除 12047
系统每60秒周期性检测Kafka服务堆内存使用状态,当连续10次检测到Kafka实例堆内存使用率超出阈值(最大内存的95%)时产生该告警。 平滑次数为1,堆内存使用率小于或等于阈值时,告警恢复;平滑次数大于1,堆内存使用率小于或等于阈值的90%时,告警恢复。 告警属性 告警ID 告警级别 是否自动清除 38002
在Spark中有个定期线程,通过连接RM监测AM的状态。由于连接RM超时,就会报上面的错误,且一直重试。RM中对重试次数有限制,默认是30次,每次间隔默认为30秒左右,每次重试时都会报上面的错误。超过次数后,driver才会退出。 RM中关于重试相关的配置项如表1所示。 表1 参数说明 参数 描述 默认值
在Spark中有个定期线程,通过连接RM监测AM的状态。由于连接RM超时,就会报上面的错误,且一直重试。RM中对重试次数有限制,默认是30次,每次间隔默认为30秒左右,每次重试时都会报上面的错误。超过次数后,driver才会退出。 RM中关于重试相关的配置项如表1所示。 表1 参数说明 参数 描述 默认值
用户可通过“系统设置 > 阈值配置 > 设备 > 主机 > 网络写信息 > 网络写包率信息 > 写包错误率”修改阈值。 平滑次数为1,网络写包错误率小于或等于阈值时,告警恢复;平滑次数大于1,网络写包错误率小于或等于阈值的90%时,告警恢复。 告警属性 告警ID 告警级别 可自动清除 12048
用户可通过“运维 > 告警 > 阈值设置 > 待操作集群的名称 > 主机 > 网络读信息 > 读吞吐率”修改阈值。 平滑次数为1,网络读吞吐率小于或等于阈值时,告警恢复;平滑次数大于1,网络读吞吐率小于或等于阈值的90%时,告警恢复。 告警属性 告警ID 告警级别 是否自动清除 12049
内存使用状态,当连续10次检测到Kafka实例直接内存使用率超出阈值(最大内存的80%)时,产生该告警。 平滑次数为1,直接内存使用率小于或等于阈值时,告警恢复;平滑次数大于1,直接内存使用率小于或等于阈值的90%时,告警恢复。 告警属性 告警ID 告警级别 是否自动清除 38004
用户可通过“运维 > 告警 > 阈值设置 > 待操作集群的名称 > 主机 > 网络写信息 > 写吞吐率”修改阈值。 平滑次数为1,网络写吞吐率小于或等于阈值时,告警恢复;平滑次数大于1,网络写吞吐率小于或等于阈值的90%时,告警恢复。 告警属性 告警ID 告警级别 是否自动清除 12050
系统每30秒周期性检测每个DataNode上的块数,当检测到当前的DataNode节点上块数超过阈值时产生该告警。 如果平滑次数为1,DataNode节点上的块数小于或等于阈值时,告警恢复;如果平滑次数大于1,DataNode节点上的块数小于或等于阈值的90%时,告警恢复。 告警属性 告警ID 告警级别
用户可通过“系统设置 > 阈值配置 > 设备 > 主机 > 网络读信息 > 网络读包率信息 > 读包丢包率”修改阈值。 平滑次数为1,网络读包丢包率小于或等于阈值时,告警恢复;平滑次数大于1,网络读包丢包率小于或等于阈值的90%时,告警恢复。 该告警检测默认关闭。若需要开启,请根据“检查系统环