检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
ALM-25500 KrbServer服务不可用(2.x及以前版本) 告警解释 系统按30秒周期性检测组件KrbServer的服务状态。当检测到组件KrbServer服务异常时产生该告警。 当检测到组件KrbServer服务恢复时告警恢复。 告警属性 告警ID 告警级别 可自动清除
ALM-12017 磁盘容量不足(2.x及以前版本) 告警解释 系统每30秒周期性检测磁盘容量,并把实际磁盘容量和阈值相比较。磁盘容量默认提供一个阈值。当检测到磁盘容量低于阈值时产生该告警。 用户可通过“系统设置 > 阈值配置”修改阈值。 当主机磁盘使用率小于或等于阈值时,告警恢复。
管理Loader连接(MRS 3.x之前版本) 操作场景 Loader页面支持创建、查看、编辑和删除连接。 本章节适用于MRS 3.x之前版本。 前提条件 已访问Loader页面,参见Loader页面介绍。 创建连接 在Loader页面,单击“管理连接”。 单击“新建连接”,配置连接参数。
ALM-12033 慢盘故障(2.x及以前版本) 告警解释 MRS 2.x及以前版本: 对于HDD盘,满足以下任意条件时触发告警: 系统每3秒执行一次iostat命令,在30秒内连续10周期svctm值超过1000ms。 系统每3秒执行一次iostat命令,在300秒内有超过60%的IO超过150ms。
A提供了core文件管理特性,对应用程序发生crash时产生的core文件进行统一的生命周期管理以及告警通知管理。当检测到有新的core文件产生时,会产生该告警。 该章节适用于MRS 3.1.5及之后版本。 MRS 3.3.1及之后版本,告警名称从“发生core dump”变成“集群业务进程发生core dump”。
wr_ios_old) MRS 2.x及以前版本: 如果rd_ios_new + wr_ios_new - rd_ios_old - wr_ios_old = 0,则svctm = 0 MRS 1.9.3.10及之后补丁版本: 当检测周期粒度为30s时,如果rd_ios_new +
ALM-13000 ZooKeeper服务不可用(2.x及以前版本) 告警解释 系统每30秒周期性检测ZooKeeper服务状态,当检测到ZooKeeper服务不可用时产生该告警。 ZooKeeper服务恢复时,告警清除。 告警属性 告警ID 告警级别 可自动清除 13000 致命
ALM-25000 LdapServer服务不可用(2.x及以前版本) 告警解释 系统按30秒周期性检测LdapServer的服务状态。当检测到两个LdapServer服务均异常时产生该告警。 当检测到一个LdapServer服务恢复时告警恢复。 告警属性 告警ID 告警级别 可自动清除
ALM-19007 HBase合并队列超出阈值(2.x及以前版本) 告警解释 系统每30秒周期性检测HBase服务的compaction队列长度,默认当连续3次检测到HBase服务的compaction队列长度超过告警的阈值(默认100)时产生该告警。当compaction队列长度小于告警的阈值时,告警恢复。
使用Flume客户端加密工具 安装Flume客户端后,配置文件的部分参数可能需要填写加密的字符,Flume客户端中提供了加密工具。 安装Flume客户端。 登录安装Flume客户端的节点,并切换到客户端安装目录。例如“/opt/FlumeClient”。 切换到以下目录 cd f
行加密。 针对MRS 3.x之前版本加密路径为“/opt/Bigdata/MRS_XXX/install/FusionInsight-Flume-Flume组件版本号/flume/bin/genPwFile.sh”。 针对MRS 3.x及之后版本加密路径为“/opt/Bigdat
ALM-43013 JDBCServer GC 时间超出阈值(2.x及以前版本) 告警解释 系统每60秒周期性检测JDBCServer进程的GC时间,当检测到JDBCServer进程的GC时间超出阈值(连续3次检测超过12秒)时产生该告警。 用户可通过“系统设置 > 阈值配置 > 服务
Lib损坏、缺失或Jar包冲突可能导致Oozie任务运行失败。 当用户提交的Oozie作业运行失败时,可以通过该工具对Share Lib进行检查。 该操作仅适用于MRS 3.3.0及之后版本。 前提条件 已安装HDFS、Oozie客户端。 如果需要检查Spark Share Lib,Oozie客户端所在节点上还需要安装Spark客户端。
ALM-18006 执行MapReduce任务超时(2.x及以前版本) 告警解释 告警模块每30秒周期性检测MapReduce任务。任务提交后,当检测到MapReduce任务执行时间超过指定时间时,产生该告警。 该告警需要手动清除。 告警属性 告警ID 告警级别 可自动清除 18006
OpenTSDB提供了客户端工具,可以直接调用相关命令对OpenTSDB进行操作。客户端工具同开源社区版本保持一致,请参见https://opentsdb.net/docs/build/html/user_guide/cli/index.html。 客户端工具使用方法: 登录任意一个Master节点。
ALM-18002 NodeManager心跳丢失(2.x及以前版本) 告警解释 系统每30秒周期性检测丢失的NodeManager节点数,并把丢失的节点数和阈值相比较。“丢失的节点数”指标默认提供一个阈值范围。当检测到“丢失的节点数”的值超出阈值范围时产生该告警。 当“丢失的节点
10补丁安装后,需要重新下载安装全量的客户端,包含Master节点的原始客户端和虚拟私有云的其他节点使用的客户端(即您自行搭建的客户端)。 主备Master节点的原始客户端全量更新,请参见更新客户端配置(2.x及之前版本)。 自行搭建的客户端全量安装方法,请参见安装客户端(2.x及之前版本)。 重新安装客户端前建议先对老客户端进行备份。
操作场景 本章节适用于MRS 3.x及后续版本。 HDFS集群可能出现DataNode节点间磁盘利用率不平衡的情况,比如集群中添加新数据节点的场景。如果HDFS出现数据不平衡的状况,可能导致多种问题,比如MapReduce应用程序无法很好地利用本地计算的优势、数据节点之间无法达到更好
操作场景 本章节适用于MRS 3.x及后续版本。 HDFS集群可能出现DataNode节点间磁盘利用率不平衡的情况,比如集群中添加新数据节点的场景。如果HDFS出现数据不平衡的状况,可能导致多种问题,比如MapReduce应用程序无法很好地利用本地计算的优势、数据节点之间无法达到更好
ALM-14006 HDFS文件数超过阈值(2.x及以前版本) 告警解释 系统每30秒周期性检测HDFS文件数,并把实际文件数和阈值相比较。当检测到HDFS文件数指标超出阈值范围时产生该告警。 当HDFS文件数指标的值小于或等于阈值时,告警恢复。 告警属性 告警ID 告警级别 可自动清除