检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
ALM-16047 HiveServer已从Zookeeper注销 告警解释 系统每60秒周期性检测Hive服务,若Hive在Zookeeper上的注册信息丢失,或者Hive无法连接上Zookeeper,将会发出告警。 告警属性 告警ID 告警级别 是否自动清除 16047 重要
ALM-16048 Tez或者Spark库路径不存在 告警解释 系统每180秒周期性检测Tez和Spark库路径,不存在则产生该告警。 告警属性 告警ID 告警级别 是否自动清除 16048 重要 是 告警参数 参数名称 参数含义 来源 产生告警的集群名称。 服务名 产生告警的服务名称
ALM-17006 Oozie直接内存使用率超过阈值 告警解释 系统每30秒周期性检测Oozie服务直接内存使用状态,当检测到Oozie实例直接内存使用率超出阈值(最大内存的80%)时,产生该告警。当Oozie直接内存使用率小于或等于阈值时,告警恢复。 告警属性 告警ID 告警级别
ALM-18021 Mapreduce服务不可用 告警解释 告警模块按60秒周期检测Mapreduce服务状态。当检测到Mapreduce服务不可用时产生该告警。 Mapreduce服务恢复时,告警恢复。 告警属性 告警ID 告警级别 是否自动清除 18021 紧急 是 告警参数
ALM-18025 Yarn被终止的任务数超过阈值 告警解释 告警模块按60秒周期检测Yarn root队列上被终止的应用的数量,当root队列上该监控周期内新增的被终止的应用的数量超过50,且连续发生3次以上时,触发该告警。 告警属性 告警ID 告警级别 是否自动清除 18025
备份CDL业务数据 操作场景 为了确保CDL日常数据安全,或者系统管理员需要对CDL进行重大操作(如升级或迁移等)时,需要对CDL数据进行备份,从而保证系统在出现异常或未达到预期结果时可以及时进行数据恢复,将对业务的影响降到最低。 CDL的数据存储在DBService与Kafka服务中
配置Hadoop数据传输加密 设置安全通道加密 默认情况下,组件间的通道是不加密的。您可以配置如下参数,设置安全通道是加密的。 参数修改入口:在FusionInsight Manager系统中,选择“集群 > 服务 > 服务名 > 配置”,展开“全部配置”页签。在搜索框中输入参数名称
ALM-45008 HetuEngine计算实例查询时延超过阈值 本章节适用于MRS 3.5.0及以后版本。 告警解释 系统每30秒周期性检测HetuEngine计算实例的查询时延,当检测到HetuEngine计算实例的查询时延大于等于60S时产生该告警。 HetuEngine计算实例的查询时延小于
ALM-45181 OBS write接口调用失败数高于阈值 告警解释 系统每30秒周期性检测OBS write接口调用失败数是否高于阈值,当检测到大于所设置阈值时就会产生该告警 。 当OBS write接口调用失败数小于阈值时,该告警会自动清除。 告警属性 告警ID 告警级别 是否自动清除
ALM-45292 PolicySync垃圾回收(GC)时间超过阈值 告警解释 系统每60秒周期性检测PolicySync进程的垃圾回收(GC)占用时间,当连续5次检测到PolicySync进程的垃圾回收(GC)时间超出阈值时,产生该告警。垃圾回收(GC)时间小于阈值时,告警恢复。
查看Flume客户端监控信息 操作场景 集群外的Flume客户端也是端到端数据采集的一环,与集群内Flume服务端一起都需要监控,用户通过FusionInsight Manager可以对Flume客户端进行监控,可以查看客户端的Source、Sink、Channel的监控指标以及客户端的进程状态
增强有限内存下的稳定性 配置场景 当前Spark SQL执行一个查询时需要使用大量的内存,尤其是在做聚合(Aggregate)和关联(Join)操作时,此时如果内存有限的情况下就很容易出现OutOfMemoryError。有限内存下的稳定性就是确保在有限内存下依然能够正确执行相关的查询
停止或卸载Flume客户端 操作场景 指导运维工程师停止、启动Flume客户端,以及在不需要Flume数据采集通道时,卸载Flume客户端。 操作步骤 停止Flume角色的客户端。 假设Flume客户端安装路径为“/opt/FlumeClient”,执行以下命令,停止Flume客户端
备份DBService元数据 操作场景 为了确保DBService日常数据安全,或者系统管理员需要对DBService进行重大操作(如升级或迁移等)时,需要对DBService数据进行备份,从而保证系统在出现异常或未达到预期结果时可以及时进行数据恢复,将对业务的影响降到最低。 系统管理员可以通过
ALM-12012 NTP服务异常(2.x及以前版本) 告警解释 当节点NTP服务无法与主OMS节点NTP服务正常同步时间时产生该告警。 当节点NTP服务与主OMS节点NTP服务正常同步时间时恢复该告警。 告警属性 告警ID 告警级别 可自动清除 12012 严重 是 告警参数 参数名称
ALM-12017 磁盘容量不足(2.x及以前版本) 告警解释 系统每30秒周期性检测磁盘容量,并把实际磁盘容量和阈值相比较。磁盘容量默认提供一个阈值。当检测到磁盘容量低于阈值时产生该告警。 用户可通过“系统设置 > 阈值配置”修改阈值。 当主机磁盘使用率小于或等于阈值时,告警恢复
ALM-12033 慢盘故障(2.x及以前版本) 告警解释 MRS 2.x及以前版本: 对于HDD盘,满足以下任意条件时触发告警: 系统每3秒执行一次iostat命令,在30秒内连续10周期svctm值超过1000ms。 系统每3秒执行一次iostat命令,在300秒内有超过60%
ALM-50216 FE节点使用的内存比率超过阈值 告警解释 系统每30秒周期性检查FE节点使用的内存比率,当检查到该值超出阈值(默认值为95%)时产生该告警。 当FE节点使用的内存比率低于阈值时,告警清除。 告警属性 告警ID 告警级别 是否可自动清除 50216 紧急 是 告警参数
ALM-50222 BE中指定数据目录的磁盘状态异常 告警解释 系统每30秒周期性检查BE中指定数据目录的磁盘状态,当检查到该值不等于1(1表示正常,0表示异常)时产生该告警。BE中指定数据目录的磁盘状态恢复正常,告警清除。 告警属性 告警ID 告警级别 是否可自动清除 50222
ALM-45009 HetuEngine计算实例任务失败率超过阈值 本章节适用于MRS 3.5.0及以后版本。 告警解释 系统每30秒周期性检测HetuEngine计算实例的任务失败率,当检测到HetuEngine计算实例的任务失败率大于等于50%时产生该告警。 HetuEngine