检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
Condition 系统当前指标取值满足自定义的告警设置条件。 对系统的影响 ZooKeeper可用内存不足,可能会造成内存溢出导致服务崩溃,导致上游业务(例如HDFS、Yarn等)运行失败。 可能原因 该节点ZooKeeper实例直接内存使用率过大,或配置的直接内存不合理,导致使用率超过阈值。 处理步骤
告警参数 参数名称 参数含义 来源 产生告警的集群名称。 服务名 产生告警的服务名称。 角色名 产生告警的角色名称。 主机名 产生告警的主机名。 Trigger Condition 系统当前指标取值满足自定义的告警设置条件。 对系统的影响 非堆内存溢出可能导致服务崩溃。 可能原因 该节
告警参数 参数名称 参数含义 来源 产生告警的集群名称。 服务名 产生告警的服务名称。 角色名 产生告警的角色名称。 主机名 产生告警的主机名。 Trigger Condition 系统当前指标取值满足自定义的告警设置条件。 对系统的影响 非堆内存溢出可能导致服务崩溃。 可能原因 该节
否,联系第三方AD服务管理人员处理AD服务器问题。 收集故障信息。 在FusionInsight Manager界面,选择“运维 > 日志 > 下载”。 在“服务”中勾选“OMS”下的“Controller”模块,单击“确认”。 单击右上角的设置日志收集的“开始时间”和“结束时间”分别为告警产生时间的前后10分钟,单击“下载”。
实例”,选择上报告警实例主机名对应的角色。单击图表区域右上角的下拉菜单,选择“定制 > 进程 > Kafka直接内存使用率”,单击“确定”。 图1 Kafka直接内存使用率 查看Kafka使用的直接内存是否已达到Kafka设定的最大直接内存的80%。 是,执行4。 否,执行7。 检查Kafka配置的直接内存大小。
Kafka堆内存使用率超过阈值 告警解释 系统每60秒周期性检测Kafka服务堆内存使用状态,当连续10次检测到Kafka实例堆内存使用率超出阈值(最大内存的95%)时产生该告警。 平滑次数为1,堆内存使用率小于或等于阈值时,告警恢复;平滑次数大于1,堆内存使用率小于或等于阈值的90%时,告警恢复。
产生告警的角色名称。 HostName 异常NTP服务器的IP地址。 对系统的影响 主OMS节点配置的NTP服务器异常,可能会导致主OMS节点与外部服务器不能同步时间,集群时间可能会产生误差。 可能原因 NTP服务器网络异常。 与NTP服务器认证失败。 不能从NTP服务器获取时间。
参数含义 来源 产生告警的集群名称。 服务名 产生告警的服务名称。 角色名 产生告警的角色名称。 主机名 产生告警的主机名。 Trigger Condition 系统当前指标取值满足自定义的告警设置条件。 对系统的影响 MapReduce可用直接内存不足,可能会造成内存溢出导致服务崩溃。
实例”,单击告警上报的HiveServer,进入实例“概览”页面,单击图表区域右上角的下拉菜单,选择“定制 > CPU和内存”,勾选“HiveServer内存使用率统计” ,单击“确定”,查看HiveServer进程使用的非堆内存是否已达到HiveServer进程设定的最大非堆内存的阈值(默认95%)。
和内存”,勾选“ZooKeeper堆内存与直接内存使用率”,单击“确定”,查看堆内存使用情况。 查看ZooKeeper使用的堆内存是否已达到ZooKeeper设定的最大堆内存的95%。 是,执行4。 否,执行7。 在FusionInsight Manager首页,选择“集群 > 待操作集群的名称 > 服务
CPU和内存 > HMaster堆内存使用率与直接内存使用率统计”,单击“确定”,查看HBase服务进程使用的堆内存是否已达到HBase服务进程设定的最大堆内存的90%。 是,执行4。 否,执行6。 图1 HMaster堆内存使用率与直接内存使用率统计 在FusionInsight
> CPU和内存 > HMaster堆内存使用率与直接内存使用率统计” ,单击“确定”,查看HBase服务进程使用的直接内存是否已达到HBase服务进程设定的最大直接内存的90%。 是,执行4。 否,执行8。 图1 HMaster堆内存使用率与直接内存使用率统计 在FusionInsight
出现此告警时,说明当前Loader实例设置非堆内存大小无法满足当前业务使用场景,建议打开“Loader非堆内存资源状况”监控图表,观察该监控图表中“Loader使用的非堆内存大小”的变化趋势,根据当前非堆内存使用的大小,调整“-XX:MaxPermSize”的值为当前非堆内存使用量的两倍(或根据实际情况进行调整)。
来源 产生告警的集群名称。 服务名 产生告警的服务名称。 角色名 产生告警的角色名称。 主机名 产生告警的主机名。 Trigger Condition 系统当前指标取值满足自定义的告警设置条件。 对系统的影响 ResourceManager可用直接内存不足,可能会造成内存溢出导致服务崩溃。
Task需要的内存量 set mapreduce.map.java.opts=-Xmx3276M; // 每个Map Task 的JVM最大使用内存 set mapreduce.reduce.memory.mb=4096; // 每个Reduce Task需要的内存量 set mapreduce
告警参数 参数名称 参数含义 来源 产生告警的集群名称。 服务名 产生告警的服务名称。 角色名 产生告警的角色名称。 主机名 产生告警的主机名。 Trigger Condition 系统当前指标取值满足自定义的告警设置条件。 对系统的影响 直接内存溢出可能导致服务崩溃,Flume实例不可用。
告警参数 参数名称 参数含义 来源 产生告警的集群名称。 服务名 产生告警的服务名称。 角色名 产生告警的角色名称。 主机名 产生告警的主机名。 Trigger Condition 系统当前指标取值满足自定义的告警设置条件。 对系统的影响 直接内存溢出可能导致服务崩溃。 可能原因 节点
告警参数 参数名称 参数含义 来源 产生告警的集群名称。 服务名 产生告警的服务名称。 角色名 产生告警的角色名称。 主机名 产生告警的主机名。 Trigger Condition 系统当前指标取值满足自定义的告警设置条件。 对系统的影响 非堆内存溢出可能导致服务崩溃,Flume实例不可用。
服务,本操作提供集群侧的配置指导,为可选任务。 操作步骤 在NFS服务器上检查NFS的共享目录权限,确认服务器可以访问MRS集群的NameNode。 以root用户登录NameNode主节点。 执行如下命令,创建目录并赋予目录写权限。 mkdir ${BIGDATA_DATA_HOME}/namenode-nfs
待操作集群的名称 > 服务 > Loader > 实例”,选择上报告警实例主机名对应的角色,单击图表区域右上角的下拉菜单,选择“定制”,勾选“内存”中的“Loader直接内存使用率统计”,单击“确定”。 图1 Loader直接内存使用率统计 查看Loader使用的直接内存是否已达到