检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
PostgreSQL或Opengauss(适用于MRS 3.3.0及之后版本)积压过多的WAL日志,可能导致PostgreSQL或Opengauss磁盘空间耗尽。系统每5分钟检查CDL任务配置的复制槽Slot积压数据量是否超过阈值,如果是,则产生该告警。复制槽Slot积压低于阈值,告警恢复。 告警属性 告警ID
ALM-23001 Loader服务不可用 告警解释 系统每60秒周期性检测Loader服务的可用性。当Loader服务不可用时产生该告警。当Loader服务恢复时,告警恢复。 告警属性 告警ID 告警级别 是否自动清除 23001 紧急 是 告警参数 参数名称 参数含义 来源 产生告警的集群名称。
Server的连接端口状态进行监控。当Flume Client连接到Flume Server的某个端口,Client端连续3分钟未与Server端连接时,系统产生此告警。 当Flume Server收到Flume Client连接消息,告警恢复。 告警属性 告警ID 告警级别 是否自动清除 24003
ALM-24004 Flume读取数据异常 告警解释 告警模块对Flume Source的状态进行监控,当Source读取不到数据的时长超过阈值时,系统即时上报告警。 默认阈值为0,表示不开启。用户可通过conf目录下的配置文件properties.properties修改阈值:修改对应s
产生告警的服务名称。 角色名 产生告警的角色名称。 主机名 产生告警的主机名。 Trigger Condition 系统当前指标取值满足自定义的告警设置条件。 对系统的影响 导致RangerAdmin响应缓慢。 可能原因 该节点RangerAdmin实例堆内存使用率过大,或配置的堆内存不合理,导致进程GC频繁。
ALM-45326 Presto Coordinator线程数超过阈值 本章节仅适用于MRS 3.1.5及之后版本。 告警解释 系统会检查Presto Coordinator和Worker实例的线程使用情况,默认阈值为1024个。如果Presto Coordinator或Worker的线程数超过阈值,则发出告警。
50402 紧急 是 告警参数 参数名称 参数含义 来源 产生告警的集群或系统名称 服务名 产生告警的服务名称 角色名 产生告警的角色名称 主机名 产生告警的主机名 对系统的影响 用户无法操作与JobGateway组件相关的作业功能。例如:MRS管控面作业管理中的功能,无法在作业管理
ALM-23001 Loader服务不可用(2.x及以前版本) 告警解释 系统每60秒周期性检测Loader服务的可用性。当Loader服务不可用时产生该告警。当Loader服务恢复时,告警恢复。 告警属性 告警ID 告警级别 可自动清除 23001 致命 是 告警参数 参数名称
Out”,并使用新的密码重新进行登录。 使用Ranger UserSync同步集群节点上的Unix操作系统用户 Ranger UserSync是Ranger中一个重要的组件,它支持将Unix系统用户或LDAP用户同步到Ranger WebUI中,目前MRS服务只支持同步Ranger Us
RoleName 产生告警的角色名称。 HostName 产生告警的主机名。 Trigger Condition 系统当前指标取值满足自定义的告警设置条件。 对系统的影响 资源组排队超过阈值可能导致大量任务处于排队状态,Presto任务时间超过预期,当资源组排队数超过该组最大排队
客户端安装目录 source bigdata_env 在Linux系统HDFS客户端使用命令hdfs dfs -mkdir -p/tmp/examples/multi-components/mapreduce/input/ 在Linux系统HDFS客户端使用命令hdfs dfs -putdata
客户端安装目录 source bigdata_env 在Linux系统HDFS客户端使用命令hdfs dfs -mkdir -p/tmp/examples/multi-components/mapreduce/input/ 在Linux系统HDFS客户端使用命令hdfs dfs -putdata
ser.principal=spark2x/hadoop.<系统域名>@<系统域名>;saslQop=auth-conf;auth=KERBEROS;principal=spark2x/hadoop.<系统域名>@<系统域名>;" 执行以下命令,同时在SparkSQL和HBase
ser.principal=spark2x/hadoop.<系统域名>@<系统域名>;saslQop=auth-conf;auth=KERBEROS;principal=spark2x/hadoop.<系统域名>@<系统域名>;" 执行以下命令,同时在SparkSQL和HBase
Flink HA证书文件已过期 本章节适用于MRS 3.3.0及以后版本。 告警解释 Flink首次或者每天01:00:00开始健康检查时,检查当前系统中的HA证书文件是否已过期。如果HA证书已过期,产生该告警。证书恢复到有效期内,告警恢复。 告警属性 告警ID 告警级别 是否可自动清除 45655
code=40000) 原因分析 创建的新用户没有Hive组件的操作权限。 解决方案 MRS Manager界面操作: 登录MRS Manager页面,选择“系统配置 > 角色管理 > 添加角色”。 输入角色名称。 在“权限”区域选择Hive,出现Hive管理员权限和Hive表的读写权限。 选择“Hive
是否可自动清除 50406 紧急 是 告警参数 参数名称 参数含义 来源 产生告警的集群或系统名称 服务名 产生告警的服务名称 角色名 产生告警的角色名称 主机名 产生告警的主机名 对系统的影响 用户执行提交作业失败。例如:通过REST接口提交作业可能失败。 可能原因 该节点JobServer实例存在异常。
是否可自动清除 50408 紧急 是 告警参数 参数名称 参数含义 来源 产生告警的集群或系统名称 服务名 产生告警的服务名称 角色名 产生告警的角色名称 主机名 产生告警的主机名 对系统的影响 用户执行终止作业失败。例如:通过REST接口终止作业可能失败。 可能原因 该节点JobServer实例存在异常。
如果告警节点时间比主OMS节点NTP服务时间慢,校正告警节点的系统时间。校正告警节点的系统时间后,选择“更多 > 启动所有角色”启动告警节点的服务。 如果告警节点时间比主OMS节点NTP服务时间快,等待相应时间差,校正告警节点的系统时间。校正完成后,选择“更多 > 启动所有角色”启动告警节点的服务。
向当前znode写数据,写入子znode 管理权限 admin(a) 设置当前znode的权限 对系统的影响 修改ZooKeeper的ACL是高危操作。修改ZooKeeper中znode的权限,可能会导致其他用户无权限访问该znode,导致系统功能异常。另外在3.5.6及以后版本,用户对于getAcl操作需要有读权限。