检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
所有队列都不需要上报告警:登录FusionInsight Manager界面,选择“集群 > 服务 > Yarn > 配置 > 全部配置”,搜索并修改“alarm.resource.lack.enable”参数值为“false”,保存配置。 仅部分队列需要上报告警:登录FusionInsight
clickhouse client --host 上报告警的ClickHouseServer实例IP --port 9440 --secure 集群未启用Kerberos认证(普通模式): clickhouse client --host 上报告警的ClickHouseServer实例IP
timeout.alarm”或“spark.application.timeout.alarm”)为任务的预期执行时间。重新运行任务后,查看是否不再上报告警。 是,处理完毕。 否,执行5。 检查队列资源是否不足。 在原生页面找到该任务,查看该任务的“Queue”中的队列名。单击原生页面左侧“
(%):只有设置了“文件\目录数上限”才会生效。表示当已使用的文件数超过了设置的“文件\目录数上限”的百分数后将会产生告警。不设置则不会根据实际使用情况上报告警。(仅MRS 3.x及之后版本需配置该参数) 当前已使用的文件数的数据采集周期为1个小时,因此超过文件数阈值的告警上报会存在延迟。 存储空间配额
RPC响应时间。 在FusionInsight Manager的告警列表中,查看HBase依赖的HDFS服务的DataNode实例是否有告警产生,或上报告警节点是否存在“慢盘故障”、“磁盘不可用”或“NameNode RPC处理平均时间超过阈值”告警。 是,执行6。 否,执行8。 参考HDF
可能原因 新创建的消费者组,从头开始消费Topic中的消息,导致消息积压。 用户配置的消息积压告警规则不合理,积压告警阈值设置过低,导致上报告警。 Kafka Topic流量激增,短时间内产生大量消息,导致消息积压。 下游处理Kafka Topic中消息过慢,导致消息积压。 处理步骤
Kafka堆内存使用率超过阈值 > 定位信息”。查看告警上报的实例的IP地址。 单击“组件管理 > Kafka > 实例 > Broker(对应上报告警实例IP地址) > 定制 > Kafka堆内存资源状况”。查看堆内存使用情况。 查看Kafka使用的堆内存是否已达到Kafka设定的最大堆内存的80%。
选中“告警ID”为“43008”的告警,查看“定位信息”中的实例的IP地址及角色名。 单击“组件管理 > Spark > 实例 > JobHistory(对应上报告警实例IP地址) > 定制 > JobHistory直接内存”。单击“确定”,查看直接内存使用情况。 查看JobHistory直接内存是否
定位信息”。查看告警上报实例所在的节点主机信息。 在FusionInsight Manager首页,选择“集群 > 服务 > JobGateway > 实例”。 勾选上报告警的实例,选择“更多 > 滚动重启实例”。 重启期间服务业务可能受损或中断,建议选择业务低峰期操作。 查看实例重启后运行状态是否为良好。 是,执行5。
Get耗时阈值,周期(metrics.reporter.alarm.job.alarm.rocksdb.metrics.duration)内连续出现超过该阈值,作业将上报告警,单位:微秒 metrics.reporter.alarm.job.alarm.rocksdb.write.micros.threshold
选中“告警ID”为“43007”的告警,查看“定位信息”中的实例的IP地址及角色名。 单击“组件管理 > Spark > 实例 > JobHistory(对应上报告警实例IP地址) > 定制 > JobHistory进程的非堆内存统计”。单击“确定”,查看非堆内存使用情况。 查看JobHistory进
选中“告警ID”为“43009”的告警,查看“定位信息”中的实例的IP地址及角色名。 单击“组件管理 > Spark > 实例 > JobHistory(对应上报告警实例IP地址) > 定制 > JobHistory的GC时间”。单击“确定”,查看GC时间。 查看JobHistory进程的GC时间是否大于12秒。
选中“告警ID”为“44005”的告警,查看“定位信息”中的实例的IP地址及角色名。 单击“组件管理 > Presto > 实例 > Coordinator(对应上报告警实例IP地址) > 定制 > Presto进程GC时间”。单击“确定”,查看GC时间。 查看Coordinator进程的GC时间是否大于5秒。
定位信息”。查看告警上报实例所在的节点主机信息。 在FusionInsight Manager首页,选择“集群 > 服务 > JobGateway > 实例”。 勾选上报告警的实例,选择“更多 > 滚动重启实例”。 重启期间服务业务可能受损或中断,建议选择业务低峰期操作。 查看实例重启后运行状态是否为良好。 是,执行5。
定位信息”。查看告警上报实例所在的节点主机信息。 在FusionInsight Manager首页,选择“集群 > 服务 > JobGateway > 实例”。 勾选上报告警的实例,选择“更多 > 滚动重启实例”。 重启期间服务业务可能受损或中断,建议选择业务低峰期操作。 查看实例重启后运行状态是否为良好。 是,执行5。
选中“告警ID”为“43006”的告警,查看“定位信息”中的实例的IP地址及角色名。 单击“组件管理 > Spark > 实例 > JobHistory(对应上报告警实例IP地址) > 定制 > JobHistory进程的堆内存统计”。单击“确定”,查看堆内存使用情况。 查看JobHistory进程使
通过结合所有以上属性,Kudu的目标是支持在当前Hadoop存储技术上难以实现或无法实现的应用。 Kudu的应用场景有: 需要最终用户立即使用新到达数据的报告型应用 同时支持大量历史数据查询和细粒度查询的时序应用 使用预测模型并基于所有历史数据定期刷新预测模型来做出实时决策的应用 Kudu与其他组件的关系
clickhouse client --host 上报告警的ClickHouseServer实例IP --port 9440 --secure 集群未启用Kerberos认证(普通模式): clickhouse client --host 上报告警的ClickHouseServer实例IP
通过结合所有以上属性,Kudu的目标是支持在当前Hadoop存储技术上难以实现或无法实现的应用。 Kudu的应用场景有: 需要最终用户立即使用新到达数据的报告型应用。 同时支持大量历史数据查询和细粒度查询的时序应用。 使用预测模型并基于所有历史数据定期刷新预测模型来做出实时决策的应用。 Kudu开发接口简介
选中“告警ID”为“43012”的告警,查看“定位信息”中的实例的IP地址及角色名。 单击“组件管理 > Spark > 实例 > JDBCServer(对应上报告警实例IP地址) > 定制 >JDBCServer直接内存”。单击“确定”,查看直接内存使用情况。 查看JDBCServer直接内存是否已