检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
在FusionInsight Manager首页,选择“运维 > 日志 > 下载”。 在“服务”中勾选待操作集群的“HDFS”和Manager下的NodeAgent。 单击右上角的设置日志收集的“开始时间”和“结束时间”分别为告警产生时间的前后20分钟,单击“下载”。 请联系运维人员,并发送已收集的故障日志信息。
在FusionInsight Manager界面,选择“运维 > 日志 > 下载”。 在“服务”中勾选待操作集群的“Kafka”。 单击右上角的设置日志收集的“开始时间”和“结束时间”分别为告警产生时间的前后10分钟,单击“下载”。 请联系运维人员,并发送已收集的故障日志信息。 告警清除
应用场景 Kafka是一个分布式的消息发布-订阅系统。它采用独特的设计提供了类似JMS的特性,主要用于处理活跃的流式数据。 Kafka有很多适用的场景:消息队列、行为跟踪、运维数据监控、日志收集、流处理、事件溯源、持久化日志等。 Kafka有如下几个特点: 高吞吐量 消息持久化到磁盘
在FusionInsight Manager首页,选择“运维 > 日志 > 下载”。 在“服务”中勾选待操作集群的“Hive”。 单击右上角的设置日志收集的“开始时间”和“结束时间”,分别为告警产生时间的前后10分钟,单击“下载”。 请联系运维人员,并发送已收集的故障日志信息。 告警清除
Flush请求数量过多并收集日志 使用具有FlinkServer管理操作权限的用户登录FusionInsight Manager。 选择“运维 > 告警 > 告警 > ALM-45645 RocksDB的Pending Flush持续超过阈值”,检查该告警的“定位信息”,查看并记录告警上报的任务名。
在FusionInsight Manager界面,选择“运维 > 日志 > 下载”。 在“服务”中勾选待操作集群的“Kafka”。 单击右上角的设置日志收集的“开始时间”和“结束时间”分别为告警产生时间的前后10分钟,单击“下载”。 请联系运维人员,并发送已收集的故障日志信息。 告警清除
Compaction预估总大小持续超过阈值”的告警。 处理步骤 检查是否MemTable太多引起写限流或写停止 在FusionInsight Manager首页,选择“运维 > 告警 > 告警”。 在告警列表中,查看是否存在告警“ALM-45643 RocksDB的MemTable大小持续超过阈值”。 是,执行3。
序列号 系统产生的告警计数。 附加信息 相关报错信息。 MRS 3.3.0及之后版本:针对监控指标阈值转告警,可以在“附加信息”中查看监控指标值使用情况。 定位信息 定位告警的详细信息。主要包含以下信息: 来源:产品告警的集群 服务名:产生告警的服务名称 角色名:产生告警的角色名称
Compaction预估总大小持续超过阈值”的告警。 处理步骤 检查是否MemTable太多引起写限流或写停止 在FusionInsight Manager首页,选择“运维 > 告警 > 告警”。 在告警列表中,查看是否存在告警“ALM-45643 RocksDB的MemTable大小持续超过阈值”。 是,执行3。
tion预估数据量过大并收集日志 使用具有FlinkServer管理操作权限的用户登录FusionInsight Manager。 选择“运维 > 告警 > 告警 > ALM-45647 RocksDB的Pending Compaction预估总大小持续超过阈值”,检查该告警的“
成、脚本开发、作业调度、运维监控等多项任务,可以极大降低用户使用大数据的门槛,帮助用户快速构建大数据处理中心。 集群管理 以Hadoop为基础的大数据生态的各种组件均是以分布式的方式进行部署,其部署、管理和运维复杂度较高。 MRS集群管理提供了统一的运维管理平台,包括一键式部署集
缓存命中率低于60%,导致block cache频繁的换入换出。 处理步骤 检查是否Level0层SST文件数太多 在FusionInsight Manager首页,选择“运维 > 告警 > 告警”。 在告警列表中,查看是否存在告警“ALM-45644 RocksDB的Level0层SST文件数持续超过阈值”。 是,执行3。
解决扩容失败HOSTS_OS_PATCH_STATE表IP残留导致后续扩容失败的问题。 解决CES监控和Yarn上监控对不上的问题。 解决OMS频繁主备倒换的问题。 解决查看指定时间段内主机资源概况,监控数据为空,查看失败的问题。 解决磁盘监控指标计算不正确的问题。 大数据组件 解决Yarn的ResourceManager频繁主备倒换的问题
检查是否RocksDB的Compaction压力过大并伴随ALM-45646告警 在FusionInsight Manager首页,选择“运维 > 告警 > 告警”。 在告警列表中,查看是否存在告警“ALM-45646 RocksDB的Pending Compaction持续超过阈值”。
p数>=5000)。 找到对应的HQL语句,优化在监控上显示map数过大的HQL语句,再尝试执行。 查看本告警是否恢复。 是,操作结束。 否,执行4。 收集故障信息。 在FusionInsight Manager首页,选择“运维 > 日志 > 下载”。 在“服务”中勾选待操作集群的“Hive”。
MRS集群运维说明 账户维护建议 建议系统管理员对账户例行检查,检查的内容包括: 操作系统、Manager以及各组件的账户是否有必要,临时账户是否已删除。 各类账户的权限是否合理。不同的管理员拥有不同的权限。 对各类账户的登录、操作记录进行检查和审计。 密码维护建议 用户身份验证
在FusionInsight Manager界面,选择“运维 > 日志 > 下载”。 在“服务”框中勾选待操作集群的“Doris”。 单击右上角的时间编辑按钮,设置日志收集的“开始时间”和“结束时间”分别为告警产生时间的前后10分钟,单击“下载”。 请联系运维人员,并发送已收集的故障日志信息。 告警清除
在FusionInsight Manager界面,选择“运维 > 日志 > 下载”。 在“服务”框中勾选待操作集群的“Loader”。 单击右上角的设置日志收集的“开始时间”和“结束时间”分别为告警产生时间的前后10分钟,单击“下载”。 请联系运维人员,并发送已收集的故障日志信息。 告警清除
Tserver进程CPU占用率超过阈值”告警,查看告警来源。 在“运维 > 告警 > 阈值设置 > Kudu”,找到该告警的阈值,再对比集群Kudu实例的CPU使用率监控项,和阈值对比,查看超阈值情值,处理CPU使用率过高的问题,或修改阈值。 在“运维 > 告警”页签,查看该告警是否恢复。 是,处理完毕。
ZooKeeper”,单击“资源”,在精细化监控“资源使用(按二级Znode)”中单击“按Znode数量”,查看监控中是否有顶级Znode被写入较多数据。 是,执行2。 否,执行4。 登录FusionInsight Manager,选择“运维 > 告警 > 告警”,打开告警“ALM-13008