检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
ALM-45330 Presto Worker线程数超过阈值 本章节仅适用于MRS 3.1.5及之后版本。 告警解释 系统会检查Presto Coordinator和Worker实例的线程使用情况,默认阈值为1024个。如果Presto Coordinator或Worker的线程数超过阈值
ALM-45440 ClickHouse副本间不一致 告警解释 当ClickHouse副本数大于1时,系统周期性对复制表进行检查,若数据不同步,则发送告警。副本间所有复制表数据同步后,告警清除。 告警属性 告警ID 告警级别 是否可自动清除 45440 次要 是 告警参数 参数名称
ALM-45590 ConfigNode垃圾回收(GC)时间超过阈值 告警解释 系统每60秒周期性检测ConfigNode进程的垃圾回收(GC)时间,当检测到ConfigNode进程的垃圾回收(GC)时间连续3次超过阈值(默认12秒)时产生该告警。当ConfigNode垃圾回收(GC
ALM-12012 NTP服务异常(2.x及以前版本) 告警解释 当节点NTP服务无法与主OMS节点NTP服务正常同步时间时产生该告警。 当节点NTP服务与主OMS节点NTP服务正常同步时间时恢复该告警。 告警属性 告警ID 告警级别 可自动清除 12012 严重 是 告警参数 参数名称
ALM-12017 磁盘容量不足(2.x及以前版本) 告警解释 系统每30秒周期性检测磁盘容量,并把实际磁盘容量和阈值相比较。磁盘容量默认提供一个阈值。当检测到磁盘容量低于阈值时产生该告警。 用户可通过“系统设置 > 阈值配置”修改阈值。 当主机磁盘使用率小于或等于阈值时,告警恢复
ALM-12033 慢盘故障(2.x及以前版本) 告警解释 MRS 2.x及以前版本: 对于HDD盘,满足以下任意条件时触发告警: 系统每3秒执行一次iostat命令,在30秒内连续10周期svctm值超过1000ms。 系统每3秒执行一次iostat命令,在300秒内有超过60%
补丁基本信息说明 表1 补丁基本信息 补丁号 MRS 3.3.1-LTS.1.2 发布时间 2024-08-19 解决的问题 MRS 3.3.1-LTS.1.2修复问题列表: 解决Doris集群产生RFC请求耗时超过阈值的误告警问题 解决Doris的BE实例crash重启的问题 解决
配置MRS集群对接Syslog服务器上报告警 如果用户需要在统一的告警平台查看集群的告警和事件,管理员可以在FusionInsight Manager使用Syslog协议将相关数据上报到告警平台。 Syslog协议未做加密,传输数据容易被窃取,存在安全风险。 前提条件 对接服务器对应的弹性云服务器需要和
回滚补丁 卸载补丁 登录华为云管理控制台界面,在“现有集群”列表中单击需要卸载补丁的集群名称,单击“补丁管理”页签,找到需要卸载的补丁,单击“卸载”,等待补丁卸载成功后,需要按照该章节顺序依次执行相关操作。 当“状态”显示为“卸载失败”时,在“失败任务”中查看错误提示信息,查找相应日志来定位处理
ALM-13002 ZooKeeper直接内存使用率超过阈值 告警解释 系统每30秒周期性检测ZooKeeper服务直接内存使用状态,当检测到ZooKeeper实例直接内存使用率超出阈值(最大内存的80%)时产生该告警。 平滑次数为1,ZooKeeper直接内存使用率小于阈值时,告警恢复
ALM-13003 ZooKeeper进程垃圾回收(GC)时间超过阈值 告警解释 系统每60秒周期性检测ZooKeeper进程的垃圾回收(GC)占用时间,当检测到ZooKeeper进程的垃圾回收(GC)时间超出阈值(默认12秒)时,产生该告警。 垃圾回收(GC)时间小于阈值时,告警恢复
ALM-14008 DataNode堆内存使用率超过阈值 告警解释 系统每30秒周期性检测HDFS DataNode堆内存使用率,并把实际的HDFS DataNode堆内存使用率和阈值相比较。HDFS DataNode堆内存使用率指标默认提供一个阈值范围。当HDFS DataNode
ALM-14014 NameNode进程垃圾回收(GC)时间超过阈值 告警解释 系统每60秒周期性检测NameNode进程的垃圾回收(GC)占用时间,当检测到NameNode进程的垃圾回收(GC)时间超出阈值(默认12秒)时,产生该告警。 垃圾回收(GC)时间小于阈值时,告警恢复。
ALM-14015 DataNode进程垃圾回收(GC)时间超过阈值 告警解释 系统每60秒周期性检测DataNode进程的垃圾回收(GC)占用时间,当检测到DataNode进程的垃圾回收(GC)时间超出阈值(默认12秒)时,产生该告警。 垃圾回收(GC)时间小于阈值时,告警恢复。
ALM-14017 NameNode直接内存使用率超过阈值 告警解释 系统每30秒周期性检测HDFS服务直接内存使用状态,当检测到NameNode实例直接内存使用率超出阈值(最大内存的90%)时,产生该告警。 直接内存使用率小于阈值时,告警恢复。 告警属性 告警ID 告警级别 是否自动清除
查看Flume客户端监控信息 集群外的Flume客户端也是端到端数据采集的一环,与集群内Flume服务端一起都需要监控,用户通过FusionInsight Manager可以对Flume客户端进行监控,可以查看客户端的Source、Sink、Channel的监控指标以及客户端的进程状态
配置ClickHouse表为只读表模式 本章节仅适用于MRS 3.2.0及之后版本。 操作场景 在数据迁移、一键均衡和退服缩容时,ClickHouse支持only_allow_select_statement表级参数,可以对mergetree系列表引擎配置only_allow_select_statement
原因:创建UDF后,Spark服务端的JDBCServer未重启或者spark-sql未重新启动的场景,Spark所在线程的FunctionRegistry对象未保存新创建的UDF,那么删除UDF时就会出现错误。
配置JobHistory本地磁盘缓存 配置场景 JobHistory可使用本地磁盘缓存spark应用的历史数据,以防止JobHistory内存中加载大量应用数据,减少内存压力,同时该部分缓存数据可以复用以提高后续对相同应用的访问速度。 配置参数 登录FusionInsight Manager
ALM-24010 Flume证书文件非法或已损坏 本章节适用于MRS 3.2.0及以后版本。 告警解释 Flume每隔一个小时,检查当前Flume证书文件是否合法(证书是否存在,证书格式是否正确),如果证书文件非法或已损坏,产生该告警。证书文件恢复合法时,告警恢复。 告警属性 告警