检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
ZooKeeper可用内存不足,可能会造成内存溢出导致服务崩溃,可能导致上游组件(例如Yarn、Flink、Spark等)业务运行失败。 可能原因 该节点ZooKeeper实例堆内存使用率过大,或配置的堆内存不合理,导致使用率超过阈值。 处理步骤 检查堆内存使用率。 在FusionInsight
Kafka直接内存使用率超过阈值 告警解释 系统每30秒周期性检测Kafka服务直接内存使用状态,当连续10次检测到Kafka实例直接内存使用率超出阈值(最大内存的80%)时,产生该告警。 平滑次数为1,直接内存使用率小于或等于阈值时,告警恢复;平滑次数大于1,直接内存使用率小于或等于阈值的90%时,告警恢复。
对系统的影响 ResourceManager可用直接内存不足,可能会造成内存溢出导致服务崩溃。 可能原因 该节点ResourceManager实例直接内存使用率过大,或配置的直接内存不合理,导致使用率超过阈值。 处理步骤 检查直接内存使用率。 在FusionInsight Manager首页,选择“运维
系统当前指标取值满足自定义的告警设置条件。 对系统的影响 NodeManager可用直接内存不足,可能会造成内存溢出导致服务崩溃。 可能原因 该节点NodeManager实例直接内存使用率过大,或配置的直接内存不合理,导致使用率超过阈值。 处理步骤 检查直接内存使用率。 在FusionInsight Manager首页,选择“运维
对系统的影响 ZooKeeper可用内存不足,可能会造成内存溢出导致服务崩溃,导致上游业务(例如HDFS、Yarn等)运行失败。 可能原因 该节点ZooKeeper实例直接内存使用率过大,或配置的直接内存不合理,导致使用率超过阈值。 处理步骤 检查直接内存使用率。 在FusionInsight
系统当前指标取值满足自定义的告警设置条件。 对系统的影响 MapReduce可用直接内存不足,可能会造成内存溢出导致服务崩溃。 可能原因 该节点JobHistoryServer实例直接内存使用率过大,或配置的直接内存不合理,导致使用率超过阈值。 处理步骤 检查直接内存使用率。 在FusionInsight Manager首页,选择“运维
ALM-23005 Loader非堆内存使用率超过阈值 告警解释 系统每30秒周期性检测Loader服务非堆内存使用状态,当连续5次检测到Loader实例非堆内存使用率超出阈值(最大内存的80%)时产生该告警。非堆内存使用率小于阈值时,告警恢复。 告警属性 告警ID 告警级别 是否自动清除
ALM-38002 Kafka堆内存使用率超过阈值 告警解释 系统每60秒周期性检测Kafka服务堆内存使用状态,当连续10次检测到Kafka实例堆内存使用率超出阈值(最大内存的95%)时产生该告警。 平滑次数为1,堆内存使用率小于或等于阈值时,告警恢复;平滑次数大于1,堆内存使用率小于或等于阈值的90%时,告警恢复。
Kafka可用内存不足,可能会造成内存溢出导致服务崩溃。 可能原因 该节点Kafka实例堆内存使用率过大,或配置的堆内存不合理,导致使用率超过阈值。 处理步骤 检查堆内存使用率。 登录MRS集群详情页面,选择“告警管理”。 单击“ALM-38002 Kafka堆内存使用率超过阈值
系统当前指标取值满足自定义的告警设置条件。 对系统的影响 ZooKeeper可用内存不足,可能会造成内存溢出导致服务崩溃。 可能原因 该节点ZooKeeper实例内存使用量过大,或分配的内存不合理,导致使用量超过阈值。 处理步骤 检查内存使用量。 在MRS集群详情页面,单击“告警管理 > 13002连接数不足
”。 使用omm用户登录告警的FE节点后台,执行"top"查看进程使用内存情况,找到占用较高的内存的进程,检查是否是本服务的进程,是否合理。 是,执行3 否,对此进程进行隔离、关闭或调整内存大小,并观察机器内存是否被释放出。 重启受影响的服务或实例,观察界面告警是否清除。 是,处理完毕。
/opt/knox/bin/gateway.sh start 在其他Master节点上重复执行如上步骤。 执行ps -ef |grep knox命令可查看已设置的内存信息。 图1 knox内存 父主题: 性能优化类
修改MRS集群NTP服务器 如果未配置NTP服务器或已配置的NTP不再使用,管理员可以为MRS集群重新指定或者更换新的NTP服务器,使集群从新的NTP时钟源同步时间。 本章节仅适用于MRS 3.x及以后版本。 前提条件 请准备新的NTP服务器并获取IP地址,并设置好集群与新NTP服务器的网络。
优化Flink内存GC参数 操作场景 Flink是依赖内存计算,计算过程中内存不够对Flink的执行效率影响很大。可以通过监控GC(Garbage Collection),评估内存使用及剩余情况来判断内存是否变成性能瓶颈,并根据情况优化。 监控节点进程的YARN的Container
主机名 异常NTP服务器的IP地址。 对系统的影响 主OMS节点配置的NTP服务器异常,可能会导致主OMS节点与外部服务器不能同步时间,集群时间可能会产生误差。 时差超过5分钟以上时会导致集群外客户端到集群内认证异常,可能会导致作业运行失败。 可能原因 NTP服务器网络异常。 与NTP服务器认证失败。
个SFTP服务器操作数据,单击“添加”可增加多行SFTP服务器的配置信息。 表1 连接参数 参数名 说明 示例 名称 SFTP服务器连接的名称。 sftpName Sftp服务器的IP SFTP服务器的IP地址。 10.16.0.1 Sftp服务器端口 SFTP服务器的端口号。 22
对系统的影响 Storm Nimbus堆内存使用率过高时可能造成频繁GC,甚至造成内存溢出,进而影响Storm任务提交。 可能原因 该节点Storm Nimbus实例堆内存使用量过大,或分配的堆内存不合理,导致使用量超过阈值。 处理步骤 检查堆内存使用量。 在FusionInsight
出现此告警时,说明当前Loader实例设置的堆内存无法满足当前数据传输所需的堆内存,建议打开实例监控界面,在页面上调出“Loader堆内存资源状况”监控图表,观察该监控图表中“Loader使用的堆内存大小”的变化趋势,根据当前堆内存使用的大小,调整“-Xmx”的值为当前堆内存使用量的两倍(或根据实际情况进行调整)。
动态分区插入场景内存优化 操作场景 SparkSQL在往动态分区表中插入数据时,分区数越多,单个Task生成的HDFS文件越多,则元数据占用的内存也越多。这就导致程序GC(Gabage Collection)严重,甚至发生OOM(Out of Memory)。 经测试证明:102
通第三方AD服务器。 是,执行7。 否,执行8。 执行以下命令查看是否能连通第三方AD服务。 telnet IP port 其中IP为第三方AD服务器IP地址,port为第三方AD服务器使用端口。 是,执行8。 否,联系运维人员检查网络。 联系第三方AD服务管理人员,检查AD服务是否正常。