检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
”页面“flume.config.file”参数后的“上传文件”,选择“properties.properties”文件完成操作。 图6 上传文件 每个Flume实例均可以上传单独的服务端配置文件。 更新配置文件需要按照此步骤操作,后台修改配置文件是不规范操作,同步配置时后台做的修改将会被覆盖。
告警解释 HBase服务安装MetricController实例时,热点自愈功能自动开启,告警模块按120秒周期检测HBase是否存在因为热点问题被限制请求流量的Region。当检测到HBase存在热点限流Region时,上报该告警。 当热点Region请求不再过热,将解除限流,告警清除。
ALM-45004 HetuEngine计算实例任务积压 本章节适用于MRS 3.3.1及以后版本。 告警解释 系统每30秒周期性检测HetuEngine计算实例的运行任务个数,当检测到HetuEngine计算实例的运行任务个数大于50时产生该告警。 HetuEngine计算实例运行的任务个数小于等于50时,告警清除。
HetuEngine计算实例内存负载使用率超过阈值 本章节适用于MRS 3.3.1及以后版本。 告警解释 系统每30秒周期性检测HetuEngine计算实例的内存负载使用率,当检测到HetuEngine计算实例的内存负载使用率大于80%时产生该告警。 HetuEngine计算实例运行的内存负载使用率小于等于80%时,告警清除。
HetuEngine计算实例查询时延超过阈值 本章节适用于MRS 3.5.0及以后版本。 告警解释 系统每30秒周期性检测HetuEngine计算实例的查询时延,当检测到HetuEngine计算实例的查询时延大于等于60S时产生该告警。 HetuEngine计算实例的查询时延小于60S时,告警清除。
ALM-19007 HBase合并队列超出阈值(2.x及以前版本) 告警解释 系统每30秒周期性检测HBase服务的compaction队列长度,默认当连续3次检测到HBase服务的compaction队列长度超过告警的阈值(默认100)时产生该告警。当compaction队列长度小于告警的阈值时,告警恢复。
ALM-13006 Znode数量或容量超过阈值 告警解释 系统每4小时周期性检测ZooKeeper服务数据目录下二级znode状态,当检测到二级Znode数量或者容量超过阈值时产生该告警。 告警属性 告警ID 告警级别 是否自动清除 13006 次要 是 告警参数 参数名称 参数含义
ALM-14021 NameNode RPC处理平均时间超过阈值 告警解释 系统每30秒周期性检测NameNode的RPC处理平均时间,并把实际的NameNode的RPC处理平均时间和阈值(默认为100ms)相比较。当检测到NameNode的RPC处理平均时间连续多次(默认为10次)超出阈值范围时,产生该告警。
ALM-18021 Mapreduce服务不可用 告警解释 告警模块按60秒周期检测Mapreduce服务状态。当检测到Mapreduce服务不可用时产生该告警。 Mapreduce服务恢复时,告警恢复。 告警属性 告警ID 告警级别 是否自动清除 18021 紧急 是 告警参数
”页面“flume.config.file”参数后的“上传文件”,选择“properties.properties”文件完成操作。 图6 上传文件 每个Flume实例均可以上传单独的服务端配置文件。 更新配置文件需要按照此步骤操作,后台修改配置文件是不规范操作,同步配置时后台做的修改将会被覆盖。
值(2.x及以前版本) 告警解释 系统每30s周期性采集Presto Coordinator进程的垃圾收集(GC)时间,当检测到GC时间超出阈值(连续3次检测超过5s)时产生该告警。用户可在MRS Manager中通过“系统设置> 阈值配置 > 服务 > Presto > Coordinator
系统每30秒周期性检测执行的HiveQL成功百分比,HiveQL成功百分比由一个周期内Hive执行成功的HiveQL数/Hive执行HiveQL总数计算得到。该指标可在Hive服务监控界面查看。执行的HiveQL成功百分比指标默认提供一个阈值范围(90%),当检测到百分比指标低于阈
out.println打印的调试信息或将调试信息输出至指定文件 问题 Flink业务代码中添加了System.out.println调试信息打印,该如何查看此调试日志?避免与运行日志混在一起打印,如何将业务日志单独输出至指定文件? 回答 Flink所有的运行日志打印都会打印至Yarn
ALM-19034 RegionServer WAL写入超时个数超过阈值 告警解释 系统每30秒周期性检测每个HBase服务的RegionServer实例的WAL写入超时个数,当检测到某个RegionServer上的WAL写入超时个数连续10次超出阈值时产生该告警。 当Region
ALM-23007 Loader进程垃圾回收(GC)时间超过阈值 告警解释 系统每60秒周期性检测Loader进程的垃圾回收(GC)占用时间,当连续5次检测到Loader进程的垃圾回收(GC)时间超出阈值(默认12秒)时,产生该告警。垃圾回收(GC)时间小于阈值时,告警恢复。 告警属性
ALM-38007 Kafka默认用户状态异常 告警解释 系统每60秒周期性检测Kafka服务默认用户,当检测到该用户异常时发送此告警。 平滑次数为1,当用户状态恢复后,告警恢复。 告警属性 告警ID 告警级别 是否自动清除 38007 紧急 是 告警参数 参数名称 参数含义 来源
ALM-45292 PolicySync垃圾回收(GC)时间超过阈值 告警解释 系统每60秒周期性检测PolicySync进程的垃圾回收(GC)占用时间,当连续5次检测到PolicySync进程的垃圾回收(GC)时间超出阈值时,产生该告警。垃圾回收(GC)时间小于阈值时,告警恢复。
ALM-13004 ZooKeeper堆内存使用率超过阈值 告警解释 系统每60秒周期性检测ZooKeeper服务堆内存使用状态,当检测到ZooKeeper实例堆内存使用率超出阈值(最大内存的95%)时产生该告警。 堆内存使用率小于阈值时,告警恢复。 告警属性 告警ID 告警级别
ALM-18013 ResourceManager直接内存使用率超过阈值 告警解释 系统每30秒周期性检测ResourceManager服务直接内存使用状态,当检测到ResourceManager实例直接内存使用率超出阈值(最大内存的90%)时,产生该告警。 直接内存使用率小于阈值时,告警恢复。
ALM-19018 HBase合并队列超出阈值 告警解释 系统每30秒周期性检测HBase服务的compaction队列长度,默认当连续3次检测到HBase服务的compaction队列长度超过告警的阈值(默认100)时产生该告警。当compaction队列长度小于告警的阈值时,告警恢复。