检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
ALM-50227 Doris租户查询并发数超过阈值 告警解释 系统每30秒周期性检查租户FE节点的查询并发数,当检查到该值超出阈值(默认值为90%)时产生该告警。 当检测到FE的查询并发数低于阈值时,告警恢复。 该告警仅适用于MRS 3.3.1及之后版本。
以root用户登录上报告警的节点,用户密码为安装前用户自定义,请咨询系统管理员,进入故障磁盘所在目录,使用ll命令查看该故障磁盘的权限是否711,用户是否为omm。 是,执行7 否,执行6。
处理步骤 检查knox进程是否异常。 登录FusionInsight Manager页面,在告警列表中,单击此告警所在行的,查看该告警的主机名称。 使用PuTTY工具,以root用户登录该告警的主机地址。 执行命令su - omm,切换至omm用户。
告警解释 Flink首次或者每天01:00:00开始健康检查时,检查当前系统中的HA证书文件是否失效(证书是否存在,证书格式是否正确),如果证书文件失效,产生该告警。证书文件恢复,告警恢复。
dryRun为true时,会根据Hudi表配置的TTL策略去检查当前时刻有哪些老化的分区,并且逻辑删除这些老化的分区。逻辑删除操作会生成一个repalcecommit,等执行clean操作时会自动物理删除老化的分区。
ALM-14036 NameNode进入安全模式 告警解释 NameNode每30秒周期性检查进程状态,NameNode进入安全模式时触发该告警。 进程状态正常后告警清除。 该告警仅适用于MRS 3.3.1及之后版本。
检查安全组:MRS集群对应的安全组规则中,需要对当前用户开放9022端口。安全组规则中添加的用户本地IP是否发生变化。 检查浏览器:检查本地浏览器是否正常,例如是否配置了内部网络代理、是否添加了会拦截用户Token的安全设置。
处理步骤 检查任务并发量 检查当前集群CPU负载是否正常,SQL并发量是否符合预期。 是,执行2。 否,执行4。 调整线程数告警触发阈值。
ALM-50221 BE数据盘的使用率超过阈值 告警解释 系统每30秒周期性检查BE数据盘的使用率,当检查到该值超出阈值(默认值为95%)时产生该告警。 当系统检测到BE数据盘的使用率低于阈值时,告警清除。
处理步骤 检查备份目录是否软链接到系统盘。 以root用户登录集群主备Master节点。 执行df -h命令查看磁盘情况,检查系统盘的存储情况。
处理步骤 检查任务并发量 检查当前集群CPU负载是否正常,SQL并发量是否符合预期。 是,执行2。 否,执行4。 调整线程数告警触发阈值。
登录Manager页面,检查ZooKeeper是否存在服务不可用、ClickHouse服务在ZooKeeper的数量配额使用率超过阈值等相关告警,如果存在,请按照告警指导处理。
登录Manager页面,检查ZooKeeper是否存在服务不可用、ClickHouse服务在ZooKeeper的数量配额使用率超过阈值等相关告警,如果存在,请按照告警指导处理。
告警解释 Flume每隔一个小时,检查当前Flume证书文件是否合法(证书是否存在,证书格式是否正确),如果证书文件非法或已损坏,产生该告警。证书文件恢复合法时,告警恢复。
处理步骤 检查任务并发量 检查当前集群CPU负载是否正常,SQL并发量是否符合预期。 是,执行2。 否,执行4。 调整线程数告警触发阈值。
处理步骤 检查任务并发量 检查当前集群CPU负载是否正常,SQL并发量是否符合预期。 是,执行2。 否,执行4。 调整线程数告警触发阈值。
处理步骤 检查任务并发量 检查当前集群CPU负载是否正常,SQL并发量是否符合预期。 是,执行2。 否,执行4。 调整线程数告警触发阈值。
告警解释 Flink首次或者每天01:00:00开始健康检查时,检查当前系统中的HA证书文件是否已过期。如果HA证书已过期,产生该告警。证书恢复到有效期内,告警恢复。
告警解释 Flink首次或者每天01:00:00开始健康检查时,检查当前系统中的HA证书文件是否即将过期。如果剩余有效期小于或等于30天,产生该告警。剩余有效期大于30天,告警恢复。
告警解释 系统每30秒周期性检查MemArtsCC组件的CCWorker进程内存,当检查到超过最大限制时触发该告警。 当检测到CCWorker进程内存使用率低于阈值时,告警恢复。