检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
ALM-16007 Hive GC 时间超出阈值 告警解释 系统每60秒周期性检测Hive服务的GC时间,当检测到Hive服务的GC时间超出阈值(连续3次检测超过12秒)时产生该告警。用户可通过“运维 > 告警 > 阈值设置 > 待操作集群的名称 > Hive”修改阈值。
调整监控阈值 在FusionInsight Manager界面,选择“运维 > 告警 > 阈值设置 > 待操作集群的名称 > Yarn > CPU和内存 > 挂起的内存量”,根据实际需要,适当增加该告警的监控阈值。 等待5分钟,查看该告警是否消除。 是,处理完毕。 否,执行8。
如果部分阈值类监控告警经评估后对业务影响可忽略、或告警阈值可进行调整,用户也可以根据需要自定义集群监控指标,或屏蔽对应告警,使告警不再上报。 MRS集群阈值转告警监控指标可分为节点信息指标与集群服务指标,相关指标及其对系统的影响、默认阈值等信息请参考监控指标参考。
否,执行6 调整监控阈值 在FusionInsight Manager界面,选择“运维 > 告警 > 阈值设置 > 待操作集群的名称 > Yarn > 任务 > 正在挂起的任务”,根据实际需要,适当增加该告警的监控阈值。 等待5分钟,查看该告警是否消除。 是,处理完毕。
查看“Yarn上运行失败的任务数超过阈值”告警详情中的“附加信息”,确认监控阈值是否设置过小。 是,执行3。 否,执行4。 选择“运维 > 告警 > 阈值设置 > 待操作集群的名称 > Yarn > 其它 > root队列下失败的任务数”,修改该监控的阈值。执行6。
配置MRS集群告警阈值(MRS 3.x及之后版本) 登录FusionInsight Manager。 选择“运维 > 告警 > 阈值设置”。 在监控分类中选择集群内指定主机或服务的监控指标。
ALM-16003 Background线程使用率超过阈值 告警解释 系统每30秒周期性检测Background线程使用率情况,默认阈值为90%。如果Hive使用的background线程池使用率超过阈值,则发出告警。
查看“Yarn被终止的任务数超过阈值”告警详情中的“附加信息”,确认监控阈值是否设置过小。 是,执行3。 否,执行4。 选择“运维 > 告警 > 阈值设置 > 待操作集群的名称 > Yarn > 其它 > root队列下被杀死的任务数”,修改该监控的阈值。执行6。
ALM-14003 丢失的HDFS块数量超过阈值 告警解释 系统每30秒周期性检测丢失的块数量,并把丢失的块数量和阈值相比较。丢失的块数量指标默认提供一个阈值范围。当检测到丢失的HDFS块数量超出阈值范围时产生该告警。
ALM-38012 Broker的分区数量超过阈值 告警解释 系统每30秒周期性检测Kafka服务每个Broker实例的分区数量。该指标可以在Broker实例监控中查看Partition数目,当检测到某个Broker上的分区数量超过阈值时产生告警。
监控时段以5分钟为单位,显示最近1小时的监控数据;从进入“实时监控”页面后,在监控图右侧以5分钟为单位显示实时监控数据。 在窗口左侧分类中,选择一项监控资源主体,然后勾选一个或多个监控指标。 单击“确定”即可查看对应的监控指标详情。 导出监控指标报表。
ALM-19018 HBase合并队列超出阈值 告警解释 系统每30秒周期性检测HBase服务的compaction队列长度,默认当连续3次检测到HBase服务的compaction队列长度超过告警的阈值(默认100)时产生该告警。
monTime 0(不开启) 线程监控阈值,更新时间大于阈值时重新启动该Source,单位:秒。
该指标可以在HBase服务监控界面和RegionServer角色监控界面查看,当检测到某个RegionServer上的Region数超出阈值(默认连续20次超过默认阈值2000)时产生该告警。用户可通过“运维 > 告警 > 阈值设置> 服务 > HBase”修改阈值。
monTime 0(不开启) 线程监控阈值,更新时间大于阈值时重新启动该Source,单位:秒。
对系统的影响 当监控目录下的条目数超过系统阈值的90%触发该告警,但不影响对该目录继续增加条目。一旦超过系统最大阈值,继续增加条目会失败。 可能原因 监控目录的条目数超过系统阈值的90%。 处理步骤 检查系统中是否有不需要的文件。
用户可通过在MRS Manager中的“系统设置 > 阈值配置 > 服务 > Yarn > 队列root正在挂起的任务 > 队列root正在挂起的任务”修改阈值。 当挂起状态任务数小于或等于阈值时,告警清除。
配置MRS集群监控指标数据转储 监控指标数据转储介绍 监控数据上报功能可以将系统中采集到的监控数据写入到文本文件,并以FTP或SFTP的形式上传到指定的服务器中。
spoolDir - Spooldir source的监控目录,flume运行用户需要对该目录具有可读可写可执行权限。 monTime 0(不开启) 线程监控阈值,更新时间超过阈值后,重新启动该Source,单位:秒。
spoolDir - Spooldir source的监控目录,flume运行用户需要对该目录具有可读可写可执行权限。 monTime 0(不开启) 线程监控阈值,更新时间超过阈值后,重新启动该Source,单位:秒。