检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
查看并导出健康检查报告 为了满足对健康检查结果的进一步具体分析,您可以在MRS中查看以及导出健康检查的结果。 在管理控制台查看健康检查报告 登录MRS管理控制台。 选择“现有集群”,选中一个运行中的集群并单击集群名称,进入集群信息页面。 在集群详情页,单击页面右上角“管理操作 >
开启MRS集群维护模式停止上报告警 FusionInsight Manager支持将集群、服务、主机或者OMS配置为维护模式,进入维护模式的对象将不再上报告警,避免在升级等维护变更期间系统产生大量无意义的告警,影响运维人员对集群状态的判断。 集群维护模式 集群未正式上线或暂时离线进行运维操作时
配置MRS集群对接Syslog服务器上报告警 如果用户需要在统一的告警平台查看集群的告警和事件,管理员可以在FusionInsight Manager使用Syslog协议将相关数据上报到告警平台。 Syslog协议未做加密,传输数据容易被窃取,存在安全风险。 前提条件 对接服务器对应的弹性云服务器需要和
查看MRS集群告警 用户可以在MRS上查看、清除告警。一般情况下,告警处理后,系统自动清除该条告警记录。当告警不具备自动清除功能且用户已确认该告警对系统无影响时,可手动清除告警。在MRS界面可查看最近十万条告警(包括未清除的、手动清除的和自动清除的告警)。如果已清除告警超过十万条达到十一万条
配置MRS集群对接SNMP网管平台上报告警 如果用户需要在统一的运维网管平台查看集群的告警、监控数据,管理员可以在FusionInsight Manager使用SNMP服务将相关数据上报到网管平台。 前提条件 对接服务器对应的弹性云服务器需要和MRS集群的Master节点在相同的VPC
ALM-12006 节点故障(2.x及以前版本) 告警解释 Controller按30秒周期检测NodeAgent状态。当Controller连续三次未接收到某个NodeAgent的状态报告时,产生该告警。 当Controller可以正常接收时,告警恢复。 告警属性 告警ID 告警级别
配置MRS集群告警阈值 集群Manager支持配置监控指标阈值用于关注各指标的健康情况,如果出现异常的数据并满足预设条件后,系统将会触发一条告警信息,并在告警页面中出现此告警信息。 配置MRS集群告警阈值(MRS 3.x及之后版本) 登录FusionInsight Manager。
执行MRS集群节点健康检查 如果某个主机节点的运行状态不是良好,用户可以执行主机健康检查,快速确认某些基本功能是否存在异常。在日常运维中,管理员也可以执行主机健康检查,以保证主机上各角色实例的配置参数以及监控没有异常、能够长时间稳定运行。 执行集群节点健康检查(3.x及之后版本)
ALM-50230 Doris BE连接OBS不可用 告警解释 系统每30秒周期性检查Doris BE实例节点对OBS的连接是否可用,当检查到连接状态码非零时,产生该告警。 当检测到连接状态码为零时,告警恢复。 该告警仅适用于MRS 3.3.1及之后版本。 告警属性 告警ID 告警级别
ALM-38017 分区均衡时间超过阈值 告警解释 系统每10分钟(可以通过修改Kafka配置项“auto.reassign.check.interval.ms”调整)周期性检测,扩容新的Broker后触发的分区均衡时间超过阈值(默认为1440分钟,可以通过修改Kafka配置项“reassignment.total.time.threshold
ALM-50229 Doris FE连接OBS不可用 告警解释 系统每30秒周期性检查Doris FE实例节点对OBS的连接是否可用,当检查到连接状态码为非零时,产生该告警。 当检测到连接状态码为零时,告警恢复。 该告警仅适用于MRS 3.3.1及之后版本。 告警属性 告警ID 告警级别
ALM-45444 ClickHouse进程异常 告警解释 ClickHouse实例健康检查模块30秒检查一次,如果连续失败的次数超过配置的阈值,则触发上报告警,此时ClickHouse进程可能处于停止响应状态,无法正常执行业务。 告警属性 告警ID 告警级别 是否可自动清除 45444
ALM-24001 Flume Agent异常 告警解释 Flume Agent监控模块对Flume Agent状态进行监控,当Flume Agent进程故障(每5秒检测一次)或Flume Agent启动失败时(即时上报告警),系统产生此告警。 当检测到Flume Agent进程故障恢复
ALM-24005 Flume传输数据异常 告警解释 告警模块对Flume Channel的容量状态进行监控,当Channel满的时长超过阈值,或Source向Channel放数据失败的次数超过阈值后,系统即时上报告警。 默认阈值为10,用户可通过conf目录下的配置文件properties.properties
ALM-45445 ClickHouse写入分布式表时发送数据文件到远端分片失败 本章节仅适用于MRS 3.3.1及之后版本。 告警解释 ClickHouse实例分布式表检查模块300秒检查一次,如果连续失败的次数超过配置的阈值,则触发上报告警,此时ClickHouse写入分布式表的节点无法正常发送数据文件到远端分片节点
ALM-45448 ClickHouse使用Znode数量增长速率过快 本章节仅适用于MRS 3.3.1及之后版本。 告警解释 Clickhouse中元数据信息会存储在Zookeeper上,因此会占用Znode,但是在业务无大的变动的场景下,Znode占用数出现持续陡增,两小时增长量超过设定的阈值
ALM-24004 Flume读取数据异常 告警解释 告警模块对Flume Source的状态进行监控,当Source读取不到数据的时长超过阈值时,系统即时上报告警。 默认阈值为0,表示不开启。用户可通过conf目录下的配置文件properties.properties修改阈值:修改对应
ClickHouse容量规划设计 为了能够更好的发挥ClickHouse分布式查询能力,在集群规划阶段需要合理设计集群数据分布存储。 当前ClickHouse能力为单机磁盘容量达到80%后会上报告警信息,磁盘容量达90%后集群会处于只读状态。 出现磁盘告警信息后需要考虑是否是容量不足问题
ALM-16052 MetaStore创建表时访问元数据库时延超过阈值 告警解释 系统周期性检测MetaStore创建表时访问元数据库时延,当最近5分钟创建表的平均时延超过阈值时上报告警。 当最近5分钟创建表的平均时延小于阈值时,告警恢复。 该章节适用于MRS 3.5.0及之后版本
HDFS应用开发常用概念 DataNode 将文件切分成大小相同的块(称为“数据块”),存储在不同的DataNode上,并且周期性地向NameNode报告该DataNode的数据存放情况。 NameNode 用于管理文件系统的命名空间、目录结构、元数据信息以及提供备份机制等。 Active