检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
操作场景 为了确保NameNode日常数据安全,或者系统管理员需要对NameNode进行重大操作(如升级或迁移等),需要对NameNode数据进行备份,从而保证系统在出现异常或未达到预期结果时可以及时进行数据恢复,将对业务的影响降到最低。 系统管理员可以通过FusionInsight M
操作场景 为了确保Kafka元数据安全,或者系统管理员需要对ZooKeeper进行重大操作(如升级或迁移等)时,需要对Kafka元数据进行备份,从而保证系统在出现异常或未达到预期结果时可以及时进行数据恢复,将对业务的影响降到最低。 系统管理员可以通过FusionInsight M
在用户意外修改、删除或需要找回数据时,系统管理员对DBService进行重大操作(如升级、重大数据调整等)后,系统数据出现异常或未达到预期结果,模块全部故障无法使用,或者迁移数据到新集群的场景中,需要对DBService进行恢复数据操作。 系统管理员可以通过FusionInsight
操作场景 在用户意外修改、删除或需要找回数据时,系统管理员对Hive进行重大操作(如升级、重大数据调整等)后,系统数据出现异常或未达到预期结果,模块全部故障无法使用,或者迁移数据到新集群的场景中,需要对Hive进行恢复数据操作。 系统管理员可以通过FusionInsight Man
在用户意外修改、删除或需要找回数据时,系统管理员对ZooKeeper进行重大操作(如升级、重大数据调整等)后,系统数据出现异常或未达到预期结果,导致Kafka组件全部故障无法使用,或者迁移数据到新集群的场景中,需要对Kafka元数据进行恢复数据操作。 系统管理员可以通过FusionInsight
操作场景 为了确保Hive日常用户的业务数据安全,或者系统管理员需要对Hive进行重大操作(如升级或迁移等),需要对Hive数据进行备份,从而保证系统在出现异常或未达到预期结果时可以及时进行数据恢复,将对业务的影响降到最低。 系统管理员可以通过FusionInsight Manag
Trigger Condition 系统当前指标取值满足自定义的告警设置条件。 对系统的影响 业务性能下降或者个别业务出现超时问题。 风险提示:在SuSE内核版本3.0以上或Red Hat 7.2版本,由于系统内核修改了网络读包丢包数的计数机制,在该系统下,即使网络正常运行,也可能会导
网络写包丢包率超过阈值(2.x及以前版本) 告警解释 系统每30秒周期性检测网络写包丢包率,并把实际丢包率和阈值(系统默认阈值0.5%)进行比较,当检测到网络写包丢包率连续多次(默认值为5)超过阈值时产生该告警。 用户可通过“系统设置 > 阈值配置 > 设备 > 主机 > 网络写信息
ALM-12049 网络读吞吐率超过阈值(2.x及以前版本) 告警解释 系统每30秒周期性检测网络读吞吐率,并把实际吞吐率和阈值(系统默认阈值80%)进行比较,当检测到网络读吞吐率连续多次(默认值为5)超过阈值时产生该告警。 用户可通过“系统设置 > 阈值配置 > 设备 > 主机 > 网络读信息 >
ALM-12050 网络写吞吐率超过阈值(2.x及以前版本) 告警解释 系统每30秒周期性检测网络写吞吐率,并把实际吞吐率和阈值(系统默认阈值80%)进行比较,当检测到网络写吞吐率连续多次(默认值为5)超过阈值时产生该告警。 用户可通过“系统设置 > 阈值配置 > 设备 > 主机 > 网络写信息 >
是,处理完毕。 否,执行7。 检查系统环境是否异常。 联系操作系统维护人员,检查操作系统是否存在异常。 是,恢复操作系统故障,执行8。 否,执行9 等待5分钟,检查该告警是否恢复。 是,处理完毕。 否,执行9 收集故障信息。 在MRS Manager界面,单击“系统设置 > 日志导出”。
TCP临时端口使用率超过阈值(2.x及以前版本) 告警解释 系统每30秒周期性检测TCP临时端口使用率,并把实际使用率和阈值(系统默认阈值80%)进行比较,当检测到TCP临时端口使用率连续多次(默认值为5)超过阈值时产生该告警。 用户可通过“系统设置 > 阈值配置 > 主机 > 网络状态 > TCP临时端口使用率
ALM-29004 Impalad进程内存占用率超过阈值 告警解释 以30s为周期检测Impalad进程系统内存占用率,当检测到的超过默认阈值(80%)时,系统产生此告警。 当系统检测到进程内存占用率下降到阈值以下时,告警将自动解除。 告警属性 告警ID 告警级别 是否可自动清除 29004
操作场景 为了确保Flink集群中的元数据安全,或者系统管理员需要对Flink进行重大操作(如升级或迁移等)时,需要对Flink集群的元数据进行备份,从而保证系统在出现异常或未达到预期结果时可以及时进行数据恢复,将对业务的影响降到最低。 系统管理员可以通过FusionInsight Ma
在用户意外修改、删除或需要找回数据时,系统管理员需要对Flink进行重大操作(如升级或迁移等)后,系统数据出现异常或未达到预期结果,导致Flink组件全部故障无法使用,或者迁移数据到新集群的场景中,需要对Flink元数据进行恢复数据操作。 系统管理员可以通过FusionInsight
恢复数据。 只支持进行数据备份时的系统版本与当前系统版本一致时的数据恢复。 当业务正常时需要恢复数据,建议手动备份最新管理数据后,再执行恢复数据操作。否则会丢失从备份时刻到恢复时刻之间的HBase数据。 对系统的影响 恢复过程的数据还原阶段,系统会把待恢复的HBase表禁用,此时
在用户意外修改、删除或需要找回数据时,系统管理员对NameNode进行重大操作(如升级、重大数据调整等)后,系统数据出现异常或未达到预期结果,模块全部故障无法使用,或者迁移数据到新集群的场景中,需要对NameNode进行恢复数据操作。 系统管理员可以通过FusionInsight
ALM-29100 Kudu服务不可用 告警解释 系统每60秒周期性检测Kudu的服务状态,当检测到所有的Kudu实例都异常时,就会认为Kudu服务不可用,此时产生该告警。 至少一个Kudu实例正常后,系统认为Kudu实例服务恢复,告警清除。 告警属性 告警ID 告警级别 是否自动清除
ALM-45443 集群存在慢SQL查询 告警解释 系统每隔1分钟检测ClickHouse的慢SQL,当检测到有SQL的执行时间大于等于慢SQL阈值时,系统产生此告警。 当系统检测到SQL执行时间小于慢SQL阈值时,告警自动清除。 告警属性 告警ID 告警级别 是否可自动清除 45443
为了确保DBService日常数据安全,或者系统管理员需要对DBService进行重大操作(如升级或迁移等)时,需要对DBService数据进行备份,从而保证系统在出现异常或未达到预期结果时可以及时进行数据恢复,将对业务的影响降到最低。 系统管理员可以通过FusionInsight