检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
ALM-45451 ClickHouse访问OBS失败 本章节仅适用于MRS 3.3.1及之后版本。 告警解释 系统配置冷热分离功能后,每隔1分钟检测一次当前访问OBS的状态,当连续3次检测到访问OBS失败时,系统产生告警。 当检测到系统访问OBS成功时,告警自动消除。 告警属性
恢复Doris业务数据 操作场景 在用户意外修改、删除或需要找回数据时,系统管理员对Doris进行重大操作(如升级、重大数据调整等)后,系统数据出现异常或未达到预期结果,模块全部故障无法使用,或者迁移数据到新集群的场景中,需要对Doris进行恢复数据操作。 系统管理员可以通过FusionInsight
ALM-12047 网络读包错误率超过阈值(2.x及以前版本) 告警解释 系统每30秒周期性检测网络读包错误率,并把实际错误率和阈值(系统默认阈值0.5%)进行比较,当检测到网络读包错误率连续多次(默认值为5)超过阈值时产生该告警。 用户可通过“系统设置 > 阈值配置 > 设备 >
ALM-12054 证书文件失效(2.x及以前版本) 告警解释 系统在每天二十三点检查当前系统中的证书文件是否失效(即当前集群中的证书文件是否过期,或者尚未生效)。如果证书文件失效,产生该告警。 当重新导入一个正常证书,并且状态不为失效状态,该告警恢复。 告警属性 告警ID 告警级别
配置MRS集群组件回收站目录清理策略 操作场景 在MRS 3.2.0-LTS.1及后续版本中,MRS集群内组件默认支持数据防误删策略,在基于OBS的Hadoop大数据系统中,客户可以兼容使用Hadoop FS原生的垃圾回收功能。 组件用户删除的文件数据并不会直接被删除,而是会保存到
恢复CDL业务数据 操作场景 在用户意外修改、删除或需要找回数据时,系统管理员对CDL进行重大操作(如升级、重大数据调整等)后,系统数据出现异常或未达到预期结果,模块全部故障无法使用,或者迁移数据到新集群的场景中,需要对CDL进行恢复数据操作。 CDL的元数据存储在DBService
恢复IoTDB业务数据 操作场景 在用户意外修改、删除或需要找回数据时,系统管理员对IoTDB进行重大操作(如升级、重大数据调整等)后,系统数据出现异常或未达到预期结果,模块全部故障无法使用,或者迁移数据到新集群的场景中,需要对IoTDB进行恢复数据操作。 系统管理员可以通过FusionInsight
配置HBase主备集群数据自动备份 前提条件 主备集群已经安装并且启动。 主备集群上的时间必须一致,而且主备集群上的NTP服务必须使用同一个时间源。 当主集群HBase服务关闭时,ZooKeeper和HDFS服务应该启动并运行。 该工具应该由启动HBase进程的系统用户运行。 如果处于安全模式
ALM-50221 BE数据盘的使用率超过阈值 告警解释 系统每30秒周期性检查BE数据盘的使用率,当检查到该值超出阈值(默认值为95%)时产生该告警。 当系统检测到BE数据盘的使用率低于阈值时,告警清除。 告警属性 告警ID 告警级别 是否可自动清除 50221 紧急 是 告警参数
MRS集群用户账号一览表 本章节介绍MRS集群内的相关默认用户信息。 账号一览表(MRS 3.x及之后版本) 用户分类 MRS集群提供以下3类用户,请系统管理员定期修改密码,不建议使用默认密码。 用户类型 使用说明 系统用户 通过FusionInsight Manager创建,是系统操作运维与业务场景中主要使用的用户
恢复Manager数据(MRS 3.x及之后版本) 操作场景 在用户意外修改、删除或需要找回数据时,系统管理员对FusionInsight Manager系统进行重大数据调整等操作后,系统数据出现异常或未达到预期结果,模块全部故障无法使用,需要对Manager进行恢复数据操作。 管理员可以通过
ALM-12043 DNS解析时长超过阈值(2.x及以前版本) 告警解释 系统每30秒周期性检测DNS解析时长,并把DNS解析时长和阈值(系统默认阈值20000ms)进行比较,当检测到DNS解析时长连续多次(默认值为2)超过阈值时产生该告警。 用户可通过“系统设置 > 阈值配置 >
恢复Manager数据(MRS 2.x及之前版本) 操作场景 在用户意外修改删除、数据需要找回,对元数据组件进行重大操作(如升级、重大数据调整等)后系统数据出现异常或未达到预期结果,模块全部故障完全无法使用,或者迁移数据到新集群的场景中,需要对元数据进行恢复操作。 该任务指导用户通过
备份Flink元数据 操作场景 为了确保Flink集群中的元数据安全,或者系统管理员需要对Flink进行重大操作(如升级或迁移等)时,需要对Flink集群的元数据进行备份,从而保证系统在出现异常或未达到预期结果时可以及时进行数据恢复,将对业务的影响降到最低。 系统管理员可以通过FusionInsight
恢复Flink元数据 操作场景 在用户意外修改、删除或需要找回数据时,系统管理员需要对Flink进行重大操作(如升级或迁移等)后,系统数据出现异常或未达到预期结果,导致Flink组件全部故障无法使用,或者迁移数据到新集群的场景中,需要对Flink元数据进行恢复数据操作。 系统管理员可以通过
恢复HBase业务数据 操作场景 在用户意外修改、删除或需要找回数据时,系统管理员对HBase进行重大操作(如升级、重大数据调整等)后,系统数据出现异常或未达到预期结果,模块全部故障无法使用,或者迁移数据到新集群的场景中,需要对HBase业务数据进行恢复数据操作。 系统管理员可以通过
恢复HDFS NameNode元数据 操作场景 在用户意外修改、删除或需要找回数据时,系统管理员对NameNode进行重大操作(如升级、重大数据调整等)后,系统数据出现异常或未达到预期结果,模块全部故障无法使用,或者迁移数据到新集群的场景中,需要对NameNode进行恢复数据操作。
ALM-29100 Kudu服务不可用 告警解释 系统每60秒周期性检测Kudu的服务状态,当检测到所有的Kudu实例都异常时,就会认为Kudu服务不可用,此时产生该告警。 至少一个Kudu实例正常后,系统认为Kudu实例服务恢复,告警清除。 告警属性 告警ID 告警级别 是否自动清除
ALM-45443 集群存在慢SQL查询 告警解释 系统每隔1分钟检测ClickHouse的慢SQL,当检测到有SQL的执行时间大于等于慢SQL阈值时,系统产生此告警。 当系统检测到SQL执行时间小于慢SQL阈值时,告警自动清除。 告警属性 告警ID 告警级别 是否可自动清除 45443
备份DBService元数据 操作场景 为了确保DBService日常数据安全,或者系统管理员需要对DBService进行重大操作(如升级或迁移等)时,需要对DBService数据进行备份,从而保证系统在出现异常或未达到预期结果时可以及时进行数据恢复,将对业务的影响降到最低。 系统管理员可以通过