检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
用户可在FusionInsight Manager中通过“运维 > 阈值配置 > 服务 > Presto > 集群状态 > Coordinator进程GC时间”修改阈值。当 Coordinator进程Gc时间小于或等于告警阈值时,告警清除。
ALM-12027 主机PID使用率超过阈值 告警解释 系统每30秒周期性检测PID使用率,并把实际PID使用率和阈值进行比较,PID使用率默认提供一个阈值。当检测到PID使用率超出阈值时产生该告警。
图1 集群Summary页面 单击“Brokers”进入Broker监控页面,该页面包括Broker列表和Broker节点的IO统计信息。 图2 Broker监控页面 查看Topic信息 登录KafkaManager的WebUI界面。
当HDFS DataNode堆内存使用率超出阈值范围时,产生该告警。 用户可通过“运维 > 告警 > 阈值设置 > 待操作集群的名称 > HDFS”修改阈值。
用户可在MRS Manager中通过“系统设置> 阈值配置 > 服务 > Presto > Coordinator > Presto进程GC时间> Coordinator进程GC时间”修改阈值。当 Coordinator进程Gc时间小于或等于告警阈值时,告警清除。
ALM-14016 DataNode直接内存使用率超过阈值 告警解释 系统每30秒周期性检测HDFS服务直接内存使用状态,当检测到DataNode实例直接内存使用率超出阈值(最大内存的90%)时,产生该告警。 直接内存使用率小于阈值时,告警恢复。
ALM-19017 在ZooKeeper上的容量配额使用率超过阈值 告警解释 系统每120秒周期性检测HBase服务的znode使用情况,当检测到HBase服务的znode容量使用率超出告警的阈值(默认75%)时产生该告警。 当znode的容量使用率小于告警的阈值时,告警恢复。
该指标可以在RegionServer角色监控界面查看,当检测到某个RegionServer上的等待同步wal文件数量超出阈值(默认连续20次超过默认阈值128)时产生该告警。用户可通过“运维 > 告警 > 阈值设置> 待操作集群 > HBase”修改阈值。
ALM-24005 Flume传输数据异常 告警解释 告警模块对Flume Channel的容量状态进行监控,当Channel满的时长超过阈值,或Source向Channel放数据失败的次数超过阈值后,系统即时上报告警。
该指标可以在RegionServer角色监控界面查看,当检测到某个RegionServer上的等待同步HFile文件数量超出阈值(默认连续20次超过默认阈值128)时产生该告警。用户可通过“运维 > 告警 > 阈值设置 > 待操作集群 > HBase”来修改阈值。
ALM-16009 Map数超过阈值 告警解释 系统每30秒周期性检测执行的HQL的Map数是否超过阈值,超过阈值发出告警。系统默认的平滑次数为3次,默认阈值为5000。
告警解释 系统以用户配置的告警周期(metrics.reporter.alarm.job.alarm.rocksdb.metrics.duration,默认180s)检查作业RocksDB监控数据,如果作业RocksDB的MemTable大小持续超过用户配置的阈值(metrics.reporter.alarm.job.alarm.rocksdb.get.micros.threshold
当作业RocksDB的Pending Compaction请求数小于或等于阈值,则告警恢复。
在FusionInsight Manager首页,选择“运维 > 告警 > 阈值设置 > 待操作集群的名称 > HDFS”,找到“主NameNode RPC队列平均时间”,单击default规则中“操作”栏中的“修改”,修改“阈值”为当前监控值的150%。
在“图表”区域“实时”栏中,通过监控项“HDFS磁盘容量比率”查看HDFS磁盘使用率是否超过阈值(默认为80%)。若未查看到该监控项,可单击图表区域右上角的下拉菜单,选择“定制 > 磁盘”,勾选“HDFS磁盘容量比率”。 是,执行3。 否,执行11。
集群运维 告警管理 MRS可以实时监控大数据集群,通过告警和事件可以识别系统健康状态。同时MRS也支持用户自定义配置监控与告警阈值用于关注各指标的健康情况,当监控数据达到告警阈值,系统将会触发一条告警信息。
对系统的影响 当监控的租户目录下的文件对象使用率超过用户自定义设置的阈值时触发该告警,但不影响对该目录继续写入文件。一旦超过该目录分配的最大文件对象个数,则HDFS写入数据会失败。 可能原因 告警阈值配置不合理。
HDFS文件数可以通单击“集群 > 待操作集群的名称 > 服务 > HDFS”,单击图表区域右上角的下拉菜单,选择“定制 > 文件和块”,勾选“HDFS文件”和“HDFS块数”监控项查看。
ALM-24005 Flume传输数据异常(2.x及以前版本) 告警解释 告警模块对Flume Channel的容量状态进行监控,当Channel满的时长超过阈值,或Source向Channel放数据失败的次数超过阈值后,系统发送告警。
当作业RocksDB的Pending Flush请求数小于或等于阈值,则告警恢复。