检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
系统当前指标取值满足自定义的告警设置条件。 对系统的影响 NodeManager可用直接内存不足,可能会造成内存溢出导致服务崩溃。 可能原因 该节点NodeManager实例直接内存使用率过大,或配置的直接内存不合理,导致使用率超过阈值。 处理步骤 检查直接内存使用率。 在FusionInsight Manager首页,选择“运维
对系统的影响 ZooKeeper可用内存不足,可能会造成内存溢出导致服务崩溃,导致上游业务(例如HDFS、Yarn等)运行失败。 可能原因 该节点ZooKeeper实例直接内存使用率过大,或配置的直接内存不合理,导致使用率超过阈值。 处理步骤 检查直接内存使用率。 在FusionInsight
ZooKeeper可用内存不足,可能会造成内存溢出导致服务崩溃,可能导致上游组件(例如Yarn、Flink、Spark等)业务运行失败。 可能原因 该节点ZooKeeper实例堆内存使用率过大,或配置的堆内存不合理,导致使用率超过阈值。 处理步骤 检查堆内存使用率。 在FusionInsight
Kafka直接内存使用率超过阈值 告警解释 系统每30秒周期性检测Kafka服务直接内存使用状态,当连续10次检测到Kafka实例直接内存使用率超出阈值(最大内存的80%)时,产生该告警。 平滑次数为1,直接内存使用率小于或等于阈值时,告警恢复;平滑次数大于1,直接内存使用率小于或等于阈值的90%时,告警恢复。
对系统的影响 ResourceManager可用直接内存不足,可能会造成内存溢出导致服务崩溃。 可能原因 该节点ResourceManager实例直接内存使用率过大,或配置的直接内存不合理,导致使用率超过阈值。 处理步骤 检查直接内存使用率。 在FusionInsight Manager首页,选择“运维
系统当前指标取值满足自定义的告警设置条件。 对系统的影响 MapReduce可用直接内存不足,可能会造成内存溢出导致服务崩溃。 可能原因 该节点JobHistoryServer实例直接内存使用率过大,或配置的直接内存不合理,导致使用率超过阈值。 处理步骤 检查直接内存使用率。 在FusionInsight Manager首页,选择“运维
ALM-23005 Loader非堆内存使用率超过阈值 告警解释 系统每30秒周期性检测Loader服务非堆内存使用状态,当连续5次检测到Loader实例非堆内存使用率超出阈值(最大内存的80%)时产生该告警。非堆内存使用率小于阈值时,告警恢复。 告警属性 告警ID 告警级别 是否自动清除
ALM-38002 Kafka堆内存使用率超过阈值 告警解释 系统每60秒周期性检测Kafka服务堆内存使用状态,当连续10次检测到Kafka实例堆内存使用率超出阈值(最大内存的95%)时产生该告警。 平滑次数为1,堆内存使用率小于或等于阈值时,告警恢复;平滑次数大于1,堆内存使用率小于或等于阈值的90%时,告警恢复。
Kafka可用内存不足,可能会造成内存溢出导致服务崩溃。 可能原因 该节点Kafka实例堆内存使用率过大,或配置的堆内存不合理,导致使用率超过阈值。 处理步骤 检查堆内存使用率。 登录MRS集群详情页面,选择“告警管理”。 单击“ALM-38002 Kafka堆内存使用率超过阈值
系统当前指标取值满足自定义的告警设置条件。 对系统的影响 ZooKeeper可用内存不足,可能会造成内存溢出导致服务崩溃。 可能原因 该节点ZooKeeper实例内存使用量过大,或分配的内存不合理,导致使用量超过阈值。 处理步骤 检查内存使用量。 在MRS集群详情页面,单击“告警管理 > 13002连接数不足
”。 使用omm用户登录告警的FE节点后台,执行"top"查看进程使用内存情况,找到占用较高的内存的进程,检查是否是本服务的进程,是否合理。 是,执行3 否,对此进程进行隔离、关闭或调整内存大小,并观察机器内存是否被释放出。 重启受影响的服务或实例,观察界面告警是否清除。 是,处理完毕。
优化Flink内存GC参数 操作场景 Flink是依赖内存计算,计算过程中内存不够对Flink的执行效率影响很大。可以通过监控GC(Garbage Collection),评估内存使用及剩余情况来判断内存是否变成性能瓶颈,并根据情况优化。 监控节点进程的YARN的Container
请准备新的NTP服务器并获取IP地址,并设置好集群与新NTP服务器的网络。 请确保服务器的NTP服务状态正常,否则将导致本章节操作失败。 修改MRS集群NTP服务器对系统的影响 更换NTP服务器是高危操作,更换后集群时间可能将会变化。 更换NTP服务器前NTP服务器与集群当前时间偏差大于150s,则需先停止集群,防止数据丢失。停止集群期间服务无法访问。
个SFTP服务器操作数据,单击“添加”可增加多行SFTP服务器的配置信息。 表1 连接参数 参数名 说明 示例 名称 SFTP服务器连接的名称。 sftpName Sftp服务器的IP SFTP服务器的IP地址。 10.16.0.1 Sftp服务器端口 SFTP服务器的端口号。 22
主机名 异常NTP服务器的IP地址。 对系统的影响 主OMS节点配置的NTP服务器异常,可能会导致主OMS节点与外部服务器不能同步时间,集群时间可能会产生误差。 时差超过5分钟以上时会导致集群外客户端到集群内认证异常,可能会导致作业运行失败。 可能原因 NTP服务器网络异常。 与NTP服务器认证失败。
对系统的影响 Storm Nimbus堆内存使用率过高时可能造成频繁GC,甚至造成内存溢出,进而影响Storm任务提交。 可能原因 该节点Storm Nimbus实例堆内存使用量过大,或分配的堆内存不合理,导致使用量超过阈值。 处理步骤 检查堆内存使用量。 在FusionInsight
间单位为毫秒。 开启内存软隔离 开启 关闭 租户是否可以超量占用内存资源 如果关闭内存软隔离,系统检测到租户内存使用超出限制后将立即取消租户组内内存占用最大的若干个任务。 如果开启内存软隔离,若该系统有空闲内存资源则该租户在超出内存的限制后可继续使用系统内存;只有当集群资源紧张时
HetuEngine计算实例内存负载使用率超过阈值 本章节适用于MRS 3.3.1及以后版本。 告警解释 系统每30秒周期性检测HetuEngine计算实例的内存负载使用率,当检测到HetuEngine计算实例的内存负载使用率大于80%时产生该告警。 HetuEngine计算实例运行的内存负载使用率小于等于80%时,告警清除。
Impalad的xmx内存小于catalog的xmx内存,Impalad节点持续报Full GC,SQL一直处于created状态 问题 Impalad的xmx内存小于Catalog的xmx内存,catalog长期运行,内存已经超过了impalad的xmx 内存,Impalad节点持续报Full
出现此告警时,说明当前Loader实例设置的堆内存无法满足当前数据传输所需的堆内存,建议打开实例监控界面,在页面上调出“Loader堆内存资源状况”监控图表,观察该监控图表中“Loader使用的堆内存大小”的变化趋势,根据当前堆内存使用的大小,调整“-Xmx”的值为当前堆内存使用量的两倍(或根据实际情况进行调整)。