检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
配置MRS集群对接Syslog服务器上报告警 如果用户需要在统一的告警平台查看集群的告警和事件,管理员可以在FusionInsight Manager使用Syslog协议将相关数据上报到告警平台。 Syslog协议未做加密,传输数据容易被窃取,存在安全风险。 前提条件 对接服务器对应的弹性云服务器需要和
回滚补丁 卸载补丁 登录华为云管理控制台界面,在“现有集群”列表中单击需要卸载补丁的集群名称,单击“补丁管理”页签,找到需要卸载的补丁,单击“卸载”,等待补丁卸载成功后,需要按照该章节顺序依次执行相关操作。 当“状态”显示为“卸载失败”时,在“失败任务”中查看错误提示信息,查找相应日志来定位处理
ALM-13002 ZooKeeper直接内存使用率超过阈值 告警解释 系统每30秒周期性检测ZooKeeper服务直接内存使用状态,当检测到ZooKeeper实例直接内存使用率超出阈值(最大内存的80%)时产生该告警。 平滑次数为1,ZooKeeper直接内存使用率小于阈值时,告警恢复
ALM-13003 ZooKeeper进程垃圾回收(GC)时间超过阈值 告警解释 系统每60秒周期性检测ZooKeeper进程的垃圾回收(GC)占用时间,当检测到ZooKeeper进程的垃圾回收(GC)时间超出阈值(默认12秒)时,产生该告警。 垃圾回收(GC)时间小于阈值时,告警恢复
ALM-14008 DataNode堆内存使用率超过阈值 告警解释 系统每30秒周期性检测HDFS DataNode堆内存使用率,并把实际的HDFS DataNode堆内存使用率和阈值相比较。HDFS DataNode堆内存使用率指标默认提供一个阈值范围。当HDFS DataNode
ALM-14014 NameNode进程垃圾回收(GC)时间超过阈值 告警解释 系统每60秒周期性检测NameNode进程的垃圾回收(GC)占用时间,当检测到NameNode进程的垃圾回收(GC)时间超出阈值(默认12秒)时,产生该告警。 垃圾回收(GC)时间小于阈值时,告警恢复。
ALM-14015 DataNode进程垃圾回收(GC)时间超过阈值 告警解释 系统每60秒周期性检测DataNode进程的垃圾回收(GC)占用时间,当检测到DataNode进程的垃圾回收(GC)时间超出阈值(默认12秒)时,产生该告警。 垃圾回收(GC)时间小于阈值时,告警恢复。
ALM-14017 NameNode直接内存使用率超过阈值 告警解释 系统每30秒周期性检测HDFS服务直接内存使用状态,当检测到NameNode实例直接内存使用率超出阈值(最大内存的90%)时,产生该告警。 直接内存使用率小于阈值时,告警恢复。 告警属性 告警ID 告警级别 是否自动清除
查看Flume客户端监控信息 集群外的Flume客户端也是端到端数据采集的一环,与集群内Flume服务端一起都需要监控,用户通过FusionInsight Manager可以对Flume客户端进行监控,可以查看客户端的Source、Sink、Channel的监控指标以及客户端的进程状态
配置ClickHouse表为只读表模式 本章节仅适用于MRS 3.2.0及之后版本。 操作场景 在数据迁移、一键均衡和退服缩容时,ClickHouse支持only_allow_select_statement表级参数,可以对mergetree系列表引擎配置only_allow_select_statement
ClickHouse增加磁盘容量 随着业务量的增长,ClickHouse节点数据盘的磁盘容量已不能满足业务需求,需要扩容数据盘磁盘容量。 如果购买MRS集群的计费模式为按需计费,扩容磁盘容量后MRS集群不支持转包周期。 本章节仅适用于MRS 3.1.0版本。 前提条件 ClickHouse
ALM-12064 主机随机端口范围配置与集群使用端口冲突 告警解释 系统每一个小时检查一次主机随机端口配置范围是否与集群使用端口范围冲突,如果有冲突,则发送此告警。待客户重新修改该主机的随机端口范围配置到正常范围,该告警会自动清除。 告警属性 告警ID 告警级别 是否自动清除 12064
ALM-13005 ZooKeeper中组件顶层目录的配额设置失败 告警解释 系统每5小时周期性为组件和“customized.quota”配置项中的每个ZooKeeper顶层目录设置配额,当设置某个目录的配额失败时,会产生该告警。 当设置失败的目录重新设置配额成功时,告警恢复。
ALM-13007 ZooKeeper客户端可用连接数不足 告警解释 系统每60秒周期性检测ZooKeeper客户端连接到ZooKeeper服务器上的活动进程数,当检测到连接数目超过阈值时产生该告警。 告警属性 告警ID 告警级别 是否自动清除 13007 次要 是 告警参数 参数名称
ALM-13008 ZooKeeper Znode数量使用率超出阈值 告警解释 系统每小时(MRS 3.5.0及之后版本为“每10分钟”)周期性检测ZooKeeper服务数据目录下二级znode状态,当检测到二级znode的总数量超过阈值时产生该告警。 告警属性 告警ID 告警级别
ALM-14019 DataNode非堆内存使用率超过阈值 告警解释 系统每30秒周期性检测HDFS DataNode非堆内存使用率,并把实际的HDFS DataNode非堆内存使用率和阈值相比较。HDFS DataNode非堆内存使用率指标默认提供一个阈值范围。当HDFS DataNode
ALM-18011 NodeManager进程垃圾回收(GC)时间超过阈值 告警解释 系统每60秒周期性检测NodeManager进程的垃圾回收(GC)占用时间,当检测到NodeManager进程的垃圾回收(GC)时间超出阈值(默认12秒)时,产生该告警。 垃圾回收(GC)时间小于阈值时
ALM-18018 NodeManager堆内存使用率超过阈值 告警解释 系统每30秒周期性检测Yarn服务堆内存使用状态,当检测到NodeManager实例堆内存使用率超出阈值(最大内存的95%)时产生该告警。 堆内存使用率小于阈值时,告警恢复。 告警属性 告警ID 告警级别 是否自动清除
ALM-19011 RegionServer的Region数量超出阈值 告警解释 系统每30秒周期性检测每个HBase服务实例中每个RegionServer的Region数。该指标可以在HBase服务监控界面和RegionServer角色监控界面查看,当检测到某个RegionServer
ALM-19021 RegionSever handler 使用率超过阈值 告警解释 系统每30秒周期性检测每个HBase服务实例RegionServer的handler使用率。当检测到某个RegionServer上的handler使用率超出阈值(默认连续5次超过默认阈值90%)时产生该告警