检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
检查是否Level0层SST文件数过多 查看作业TaskManager监控日志(搜索标识:RocksDBMetricPrint)中参数“rocksdb.num-files-at-level0”的值(单位个数)是否大于或等于“state.backend.rocksdb.level0_
检查是否缓存命中率过低 查看作业TaskManager监控日志(搜索标识:RocksDBMetricPrint)中参数“rocksdb.block.cache.hit”(cache命中)和“rocksdb.block.cache.miss”(cache未命中)的值,通过如下公式计算命中率是否少于
检查客户端节点网络连接。
监控所有任务的运行状态,并在任务运行失败时重新为任务申请资源以重启任务。
Kafka集群提供一个高吞吐量、可扩展性的消息系统,广泛用于日志收集、监控数据聚合等场景。Kafka可实现高效的流式数据采集、实时数据处理存储等。 操作流程 开始使用如下样例前,请务必按准备工作指导完成必要操作。
ClickHouse数据查询 数据查询规则 禁止select *查询 只查询需要的字段可以减少磁盘io和网络io,提升查询性能。
告警解释 系统以用户配置的告警周期(metrics.reporter.alarm.job.alarm.rocksdb.metrics.duration,默认180s)检查作业RocksDB监控数据,如果作业RocksDB持续出现is-write-stopped,则发送告警。
监控所有任务的运行状态,并在任务运行失败时重新为任务申请资源以重启任务。
监控所有任务的运行状态,并在任务运行失败时重新为任务申请资源以重启任务。
监控所有任务的运行状态,并在任务运行失败时重新为任务申请资源以重启任务。
检查客户端节点网络连接。
告警解释 系统以用户配置的告警周期(metrics.reporter.alarm.job.alarm.rocksdb.metrics.duration,默认180s)检查作业RocksDB监控数据,如果作业RocksDB持续触发写限流,即作业写RocksDB的速率不为0时则发送告警
端口被占用导致RegionServer启动失败 问题现象 Manager页面监控发现RegionServer状态为Restoring。 原因分析 通过查看RegionServer日志(/var/log/Bigdata/hbase/rs/hbase-omm-xxx.log)。
原因分析 DBService组件会对“${BIGDATA_HOME}/MRS_XXX/install/dbservice/ha/module/harm/plugin/script/gsDB/.startGS.fail”这个文件监控。其中XXX是产品版本号。
如果本地Windows开环境和集群业务平面网络互通,可下载集群客户端到本地,获取相关调测程序所需的集群配置文件及配置网络连通后,然后直接在Windows中进行程序调测。
检查客户端节点网络连接。
检查客户端节点网络连接。
检查所有节点管理平面网络是否互通 登录FusionInsight Manager界面,选择“运维 > 告警 > 告警”。 查看当前集群是否存在“ALM-12089 节点间网络互通异常”或“节点故障”等告警。 是,节点间网络不互通,请联系运维人员修复。
问题的解决方案是根据实际场景适当增大网络设备的阈值级别。
流作业和批作业的状态监控。 Flink作业运维能力增强,包括原生监控页面跳转。 性能&可靠性 流处理支持24小时窗口聚合计算,毫秒级性能。 批处理支持90天窗口聚合计算,分钟级计算完成。 支持对流处理和批处理的数据进行过滤配置,过滤无效数据。