检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
> 下载”。 在“服务”中勾选待操作集群的“DBService”。 设置日志收集的主机,可选项,默认所有主机。 单击右上角的设置日志收集的“开始时间”和“结束时间”分别为告警产生时间的前后10分钟,单击“下载”。 请联系运维人员,并发送已收集的故障日志信息。 告警清除 此告警修复后,系统会自动清除此告警,无需手工清除。
MRS支持集群内用户密码的更新,建议管理员定期修改密码,提高系统安全性。 密码更新指导如下所示: 修改系统用户密码:请参见修改admin密码和修改操作系统用户密码。 修改系统内部用户密码 修改默认数据库用户密码 证书更新 MRS集群的CA证书与HA证书均支持更换,如果用户需要将集群默认的证书更换成新的证书,可参考如下指导:
参数名称 参数含义 来源 产生告警的集群名称。 服务名 产生告警的服务名称。 角色名 产生告警的角色名称。 主机名 产生告警的主机名。 对系统的影响 业务表的部分数据丢失或不可用。 可能原因 Compaction永久阻塞。 HDFS文件异常。 处理步骤 检查告警原因 在FusionInsight
查询具有特定列值的数据:所有数据按RowKey的顺序进行扫描,然后将数据与特定的列值进行匹配,直到找到所需的数据。过滤器功能会scan一些不必要的数据以获取所需的数据。因此,Filter功能不能满足高性能标准频繁查询的要求。 这就是HBase HIndex产生的背景。如图1所示,HBase
MRS 3.1.2及之前版本: 每天零点系统检查熵值,每次检查都连续检查五次,首先检查是否启用并正确配置了rng-tools工具或者haveged工具,如果没有配置,则继续检查当前熵值,如果五次均小于100,则上报故障告警。 当检查到真随机数方式已经配置或者伪随机数方式中配置了
取值范围: 同一个集群的自定义自动化脚本名称不允许相同。只能由英文字母、数字以及“_”和“-”组成,且长度为[1-64]个字符。 默认取值: 不涉及 uri 是 String 参数解释: 自定义自动化脚本的路径。设置为OBS桶的路径或虚拟机本地的路径。 OBS桶的路径:直接手动输入脚
当系统中omm密码过期的期限修改,当前状态为正常,告警恢复。 告警属性 告警ID 告警级别 是否自动清除 12078 重要 是 告警参数 参数名称 参数含义 来源 产生告警的集群或系统名称。 服务名 产生告警的服务名称。 角色名 产生告警的角色名称。 主机名 产生告警的主机名。 对系统的影响 o
可能原因 随机端口范围配置错误。 定位思路 检查worker相关信息日志。 检查绑定端口的进程信息。 检查随机端口范围配置。 原因分析 通过SSH登录Worker启动失败主机,通过netstat -anp | grep <port>命令,查看占用端口的进程ID信息。其中port修改为实际端口号。
IoTDB开源增强特性 IoTDB开源增强特性:可视化 可视化运维,包含安装、卸载、一键启动和停止、配置、客户端、监控、告警、健康检查、日志。 可视化权限管理,无需后台命令行操作,支持库表级别读写权限控制。 日志级别的可视化配置动态生效、可视化下载、可视化检索、审计日志等功能。 IoTDB开源增强特性:安全加固
SSL客户端证书: 执行以下命令生成客户端SSL证书: keytool -noprompt -import -alias myservercert -file ca.crt -keystore truststore.jks 执行该命令后需输入一个自定义密码。 将生成的“truststore
据同步异常等影响集群正常运行的告警,需要根据告警及时检查集群情况并恢复。 重要 指集群部分功能不可用的告警,包括进程故障、周期备份任务失败、关键文件权限异常等,需要根据告警及时检查报告告警的对象并恢复。 次要 指不影响当前集群主要功能的告警,包括证书文件即将过期、审计日志转储失败、License文件即将过期等告警。
定制租户监控指标 健康检查 启动集群的健康检查 启动服务的健康检查 启动主机的健康检查 启动oms健康检查 启动系统的健康检查 更新健康检查的配置 导出健康检查报告 导出集群健康检查的结果 导出服务健康检查的结果 导出主机健康检查的结果 删除健康检查历史报告 导出健康检查历史报告 下载健康检查报告
参数含义 来源 产生告警的集群名称。 服务名 产生告警的服务名称。 角色名 产生告警的角色名称。 主机名 产生告警的主机名。 对系统的影响 HBase服务重启/启动失败,导致所有的HBase业务请求失败。 可能原因 HDFS上的文件或者目录缺失。 处理步骤 检查告警原因 在FusionInsight
对于JAVA应用 在连接HBase、HDFS或者其他大数据组件前,先调用loginUserFromKeytab()创建UGI,然后启动一个定时线程进行检查是否过期并在过期前重新登录。 private static void startCheckKeytabTgtAndReloginJob()
大内存的90%)时,产生该告警。 直接内存使用率小于阈值时,告警恢复。 告警属性 告警ID 告警级别 是否自动清除 14016 重要 是 告警参数 参数名称 参数含义 来源 产生告警的集群名称。 服务名 产生告警的服务名称。 角色名 产生告警的角色名称。 主机名 产生告警的主机名。
产生告警的集群名称。 服务名 产生告警的服务名称。 角色名 产生告警的角色名称。 主机名 产生告警的主机名。 附加信息 触发条件 系统当前指标取值满足自定义的告警设置条件。 对系统的影响 NameNode进入安全模式后,该NameNode不可写入。 可能原因 用户手动进入安全模式或重启NameNode时存在丢块。
ALM-12057 元数据未配置周期备份到第三方服务器的任务 告警解释 系统安装完成后会检查元数据是否有周期备份到第三方服务器的任务,然后每1小时会检查一次。如果元数据未配置周期备份到第三方服务器的任务,将发送重要告警。 在用户创建元数据周期备份到第三方服务器的任务后,告警消除。 告警属性 告警ID
参数名称 参数含义 ServiceName 产生告警的服务名称。 RoleName 产生告警的角色名称。 HostName 产生告警的主机名。 对系统的影响 ZooKeeper无法为上层组件提供协调服务,依赖ZooKeeper的组件可能无法正常运行。 可能原因 ZooKeeper实例状态异常。
主机名 产生告警的主机名。 表名 产生告警的表名。 对系统的影响 当本地复制表在副本之间业务数据不一致时,会影响ClickHouse复制表数据的可靠性,造成数据差异,影响分布式表的查询结果。 可能原因 ClickHouse业务压力过大。 ClickHouse与ZooKeeper连接发生异常。
服务名 产生告警的服务名称。 角色名 产生告警的角色名称。 主机名 产生告警的主机名。 对系统的影响 可能会导致部分需要连接此节点的操作(如重启、同步配置、实例状态查询等)失败,如果有多个节点互信失效可能会影响业务。 可能原因 /etc/ssh/sshd_config配置文件被破坏。