检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
ALM-18017 NodeManager非堆内存使用率超过阈值 告警解释 系统每30秒周期性检测Yarn NodeManager非堆内存使用率,并把实际的Yarn NodeManager非堆内存使用率和阈值相比较。当Yarn NodeManager非堆内存使用率超出阈值(默认为最大非堆内存的90%)时产生该告警。
ALM-45641 FlinkServer主备节点同步数据异常 本章节适用于MRS 3.2.0及以后版本。 告警解释 系统每60秒周期检测FlinkServer主备节点同步数据情况,当备FlinkServer无法与主FlinkServer同步文件时,产生该告警。 当备FlinkS
x及以前版本) 告警解释 Flume Agent监控模块对Flume Agent状态进行监控,当Flume Agent进程故障时,系统产生此告警。 当检测到Flume Agent进程故障恢复,且告警处理完成时,告警恢复。 告警属性 告警ID 告警级别 可自动清除 24001 一般 是 告警参数
ode服务端进程。 原因分析 常见的进程被异常终止有2种原因: Java进程OOM被终止 一般Java进程都会配置OOM Killer,当检测到OOM会自动终止进程,OOM日志通常被打印到out日志中,此时可以看运行日志(如DataNode的日志路径为 /var/log/Bigd
od,Bad,Partially Healthy,Unknown四种状态 ,四种状态除了取决于Hive本身服务的可用性(会用简单的SQL来检测Hive服务的可用性),还取决于Hive服务所依赖的其他组件的服务状态。 Hive实例分为Hiveserver和Metastore两种,健康状态有Good,Concerning
配置HetuEngine物化视图 HetuEngine物化视图概述 HetuEngine物化视图SQL示例 配置HetuEngine物化视图改写能力 配置HetuEngine物化视图推荐能力 配置HetuEngine物化视图缓存能力 配置HetuEngine物化视图的有效期与数据刷新能力
HetuEngine物化视图概述 HetuEngine物化视图功能适用于MRS 3.2.0及以后版本。 HetuEngine物化视图背景介绍 HetuEngine具备物化视图能力。在实际运用中,将高频访问的SQL查询和有高耗时的算子(连接, 聚合等算子)的SQL通过建立物化视图进
ALM-14019 DataNode非堆内存使用率超过阈值 告警解释 系统每30秒周期性检测HDFS DataNode非堆内存使用率,并把实际的HDFS DataNode非堆内存使用率和阈值相比较。HDFS DataNode非堆内存使用率指标默认提供一个阈值范围。当HDFS Da
ALM-14039 集群内存在慢DataNode 告警解释 系统每60秒周期性检测HDFS DataNode实例每秒出现的慢操作次数,并把次数与阈值相比较。当HDFS DataNode实例持续3分钟出现每秒的慢操作次数超出阈值,产生该告警。 当HDFS DataNode实例每秒出
x及以前版本) 告警解释 系统每30秒周期性检查YARN服务处于挂起状态(Pending)的任务所占内存量,并把挂起状态任务的内存量和阈值进行比较。当检测到挂起状态任务的内存量超过阈值时产生该告警。 用户可通过“系统设置> 阈值配置 > 服务 > Yarn > 队列root挂起的内存量 > 队列root挂起的内存量”修改阈值。
ALM-45293 Ranger用户同步异常 本章节仅适用于MRS 3.3.1及之后版本。 告警解释 系统每5分钟周期性检测UserSync进程的用户同步情况,当存在同步异常时产生该告警。当用户同步正常时,告警恢复。 告警属性 告警ID 告警级别 是否可自动清除 45293 重要
ALM-14009 故障DataNode数量超过阈值(2.x及以前版本) 告警解释 系统每30秒周期性检测HDFS集群处于故障状态的DataNode数量,并把实际的故障状态的DataNode数量和阈值相比较。故障状态的DataNode数量指标默认提供一个阈值范围。当HDFS集群故
ALM-45592 IoTDBServer RPC执行时长超过阈值 告警解释 当60s周期内检测到IoTDBServer进程RPC超出阈值时产生该告警。当IoTDBServer进程RPC低于阈值时,告警清除。 告警属性 告警ID 告警级别 是否自动清除 45592 重要 是 告警参数
ALM-20002 Hue服务不可用 告警解释 系统按60秒周期性检测Hue服务状态。当Hue服务不可用时产生该告警。 当Hue服务恢复时,告警恢复。 告警属性 告警ID 告警级别 是否自动清除 20002 紧急 是 告警参数 参数名称 参数含义 来源 产生告警的集群名称。 服务名
如果连接配置,例如IP地址、端口、访问用户等信息不正确,将导致验证连接失败无法保存。另外VPC相关设置,也可能影响网络连通性。 用户可以直接单击“测试”立即检测连接是否可用。 查看连接 在Loader页面,单击“管理连接”。 如果集群启用了Kerberos认证,则默认显示所有当前用户创建的连接,不支持显示其他用户创建的连接。
ALM-12006 节点故障(2.x及以前版本) 告警解释 Controller按30秒周期检测NodeAgent状态。当Controller连续三次未接收到某个NodeAgent的状态报告时,产生该告警。 当Controller可以正常接收时,告警恢复。 告警属性 告警ID 告警级别
ALM-20002 Hue服务不可用(2.x及以前版本) 告警解释 系统按60秒周期性检测Hue服务状态。当Hue服务不可用时产生该告警。 当Hue服务恢复时,告警恢复。 告警属性 告警ID 告警级别 可自动清除 20002 致命 是 告警参数 参数名称 参数含义 ServiceName
ALM-14018 NameNode非堆内存使用率超过阈值 告警解释 系统每30秒周期性检测HDFS NameNode非堆内存使用率,并把实际的HDFS NameNode非堆内存使用率和阈值相比较。HDFS NameNode非堆内存使用率指标默认提供一个阈值范围。当HDFS Na
ALM-16000 连接到HiveServer的session数占最大允许数的百分比超过阈值 告警解释 系统每30秒周期性检测连接到HiveServer的Session数占HiveServer允许的最大session数的百分比,该指标可通过“集群 > 待操作集群的名称 > 服务 >
ALM-12077 omm用户过期 告警解释 系统每天零点开始,每8小时检测当前系统中omm用户是否过期,如果用户过期,则发送告警。 当系统中omm用户过期的期限重置,当前状态为正常,告警恢复。 告警属性 告警ID 告警级别 是否自动清除 12077 重要 是 告警参数 参数名称