检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
执行任务时AppAttempts重试次数超过2次还没有运行失败 问题 系统默认的AppAttempts运行失败的次数为2,为什么在执行任务时,AppAttempts重试次数超过2次还没有运行失败?
告警解释 告警模块按60秒周期检测Guardian服务状态,当检测到Guardian服务异常时,系统产生此告警。 当系统检测到Guardian服务恢复正常,且告警处理完成时,告警恢复。
在MRS Manager界面,单击“系统设置 > 日志导出”。 请联系运维人员,并发送已收集的故障日志信息。 参考信息 无。 父主题: MRS集群告警处理参考
告警清除 此告警修复后,系统会自动清除此告警,无需手工清除。 参考信息 无。 父主题: MRS集群告警处理参考
对系统的影响 系统无法提供数据加载,查询,提取服务。 可能原因 Hive服务不可用可能与ZooKeeper、HDFS、Yarn和DBService等基础服务有关,也可能由Hive自身的进程故障引起。 ZooKeeper服务异常。 HDFS服务异常。 Yarn服务异常。
在MRS Manager界面,单击“系统设置 > 日志导出”。 请联系运维人员,并发送已收集的故障日志信息。 参考信息 无。 父主题: MRS集群告警处理参考
对系统的影响 系统无法提供数据加载,查询,提取服务。 可能原因 Hive服务不可用可能与ZooKeeper、HDFS、Yarn和DBService等基础服务有关,也可能由Hive自身的进程故障引起。 ZooKeeper服务异常。 HDFS服务异常。 Yarn服务异常。
ALM-38000 Kafka服务不可用(2.x及以前版本) 告警解释 系统按照30秒的周期检测Kafka服务是否可用,当Kafka服务不可用,系统产生此告警。 当Kafka服务恢复正常,告警自动清除。
Trigger Condition 系统当前指标取值满足自定义的告警设置条件。 对系统的影响 可能导致任务堆积,无法及时处理。 可能原因 集群运算能力低于任务提交速率,导致任务提交后无法及时运行处理。 处理步骤 检查Yarn页面的内存和vcore使用情况。
当系统检测到使用百分比低于阈值,且告警处理完成时,告警恢复。
Alluxio常用概念 Masters 由两个进程组成,一个是处理用户请求和管理Journal存储系统元数据的Alluxio Master,另一个是调度文件系统操作的Alluxio Job Master。
系统将自动显示数据库中的所有表。可以输入表名关键字,系统会自动搜索包含此关键字的全部表。 单击指定的表名,可以显示表中所有的列。 在HiveQL语句编辑区输入HiveQL语句。
ALM-45276 RangerAdmin状态异常 告警解释 告警模块按60秒周期检测RangerAdmin状态,当检测到RangerAdmin状态异常时,系统产生此告警。 当系统检测到RangerAdmin状态恢复正常,且告警处理完成时,告警恢复。
当系统检测到使用百分比低于阈值,且告警处理完成时,告警恢复。
Trigger Condition 系统当前指标取值满足自定义的告警设置条件。 对系统的影响 Mapreduce JobHistoryServer堆内存使用率过高,会影响Mapreduce 服务日志归档的性能,甚至造成内存溢出导致Mapreduce服务不可用。
上限为操作系统可存储文件个数最大值,对于Linux系统即是inode个数。 父主题: IoTDB运维管理
ALM-45275 Ranger服务不可用 告警解释 告警模块按180秒周期检测Ranger服务状态,当检测到Ranger服务异常时,系统产生此告警。 当系统检测到Ranger服务恢复正常,且告警处理完成时,告警恢复。
Trigger Condition 系统当前指标取值满足自定义的告警设置条件。 对系统的影响 Yarn ResourceManager堆内存使用率过高,会影响Yarn任务提交和运行的性能,甚至造成内存溢出导致Yarn服务不可用。
kinit 组件业务用户 在hdfs命令行显式添加要访问的OBS文件系统。 例如: 使用以下命令访问OBS文件系统。
配置HBase主备集群容灾 操作场景 HBase集群容灾作为提高HBase集群系统高可用性的一个关键特性,为HBase提供了实时的异地数据容灾功能。对外提供了基础的运维工具,包含灾备关系维护、重建、数据校验、查看数据同步进展等功能。