检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
ALM-18011 Yarn任务挂起内存超过阈值(2.x及以前版本) 告警解释 系统每30秒周期性检查YARN服务处于挂起状态(Pending)的任务所占内存量,并把挂起状态任务的内存量和阈值进行比较。当检测到挂起状态任务的内存量超过阈值时产生该告警。 用户可通过“系统设置> 阈值配置
ALM-50221 BE数据盘的使用率超过阈值 告警解释 系统每30秒周期性检查BE数据盘的使用率,当检查到该值超出阈值(默认值为95%)时产生该告警。 当系统检测到BE数据盘的使用率低于阈值时,告警清除。 告警属性 告警ID 告警级别 是否可自动清除 50221 紧急 是 告警参数
Manager界面,选择“运维 > 告警 > 告警”查看是否存在“ALM-12033 慢盘故障”告警。 是,查看并记录告警详细信息中的磁盘信息,执行6。 否,执行5。 获取发生慢操作的磁盘信息。 使用omm用户登录1中获取的DataNode节点IP地址,使用如下命令查看运行日志。 cd /var/log/Bigdata/hdfs/dn/
请准备新的NTP服务器并获取IP地址,并设置好集群与新NTP服务器的网络。 请确保服务器的NTP服务状态正常,否则将导致本章节操作失败。 修改MRS集群NTP服务器对系统的影响 更换NTP服务器是高危操作,更换后集群时间可能将会变化。 更换NTP服务器前NTP服务器与集群当前时间偏差大于150s,则需先停止集群,防止数据丢失。停止集群期间服务无法访问。
如何查看HBase日志? 使用root用户登录集群的Master节点。 执行su - omm命令,切换到omm用户。 执行cd /var/log/Bigdata/hbase/命令,进入到“/var/log/Bigdata/hbase/”目录,即可查看HBase日志信息。 父主题:
handler 使用率超过阈值 告警解释 系统每30秒周期性检测每个HBase服务实例RegionServer的handler使用率。当检测到某个RegionServer上的handler使用率超出阈值(默认连续5次超过默认阈值90%)时产生该告警。当handler使用率小于或等于阈值时,告警消除。
ALM-45005 HetuEngine计算实例CPU负载使用率超过阈值 本章节适用于MRS 3.3.1及以后版本。 告警解释 系统每30秒周期性检测HetuEngine计算实例的平均CPU负载使用率,当检测到HetuEngine计算实例的CPU负载使用率大于90%时产生该告警。 HetuEngi
ALM-16001 Hive数据仓库空间使用率超过阈值 告警解释 系统每30秒周期性检测Hive数据仓库空间使用率,该指标可在Hive服务监控界面查看,指标名称为“Hive已经使用的HDFS空间占可使用空间的百分比”。Hive数据仓库空间使用率指标默认提供一个阈值范围(85%),当
ALM-14001 HDFS磁盘空间使用率超过阈值 告警解释 系统每30秒周期性检测HDFS磁盘空间使用率,并把实际的HDFS磁盘空间使用率和阈值相比较。HDFS磁盘使用率指标默认提供一个阈值范围。当HDFS磁盘空间使用率超出阈值范围时,产生该告警。 用户可通过“运维 > 告警 >
SQL可以将表cache到内存中,并且使用压缩存储来尽量减少内存压力。通过将表cache,查询可以直接从内存中读取数据,从而减少读取磁盘带来的内存开销。 但需要注意的是,被cache的表会占用executor的内存。尽管在Spark SQL采用压缩存储的方式来尽量减少内存开销、缓解GC压力
ALM-25008 SlapdServer CPU使用率超过阈值 告警解释 系统每30秒周期性检查SlapdServer节点的CPU使用率,并把实际CPU使用率和阈值相比较,当检测到SlapdServer CPU使用率连续多次(默认值为5)超过设定阈值时,系统将产生此告警。 平滑
ALM-14002 DataNode磁盘空间使用率超过阈值 告警解释 系统每30秒周期性检测DataNode磁盘空间使用率,并把实际磁盘使用率和阈值相比较。DataNode磁盘空间使用率指标默认提供一个阈值范围。当检测到DataNode磁盘空间使用率指标超出阈值范围时产生该告警。 用户可通过“运维
配置NFS服务器存储NameNode元数据 操作场景 本章节适用于MRS 3.x及后续版本。 用户在部署集群前,可根据需要规划Network File System(简称NFS)服务器,用于存储NameNode元数据,以提高数据可靠性。 如果您已经部署NFS服务器,并已配置NFS
C表示规格,当前系列中的规格大小,例如:medium、large、xlarge。 D表示内存、CPU比,以具体数字表示,例如4表示内存和CPU的比值为4。 规格 表1 IO优化型(IO2型)裸金属服务器的规格 规格名称/ID CPU 内存(GB) 本地磁盘 扩展配置 physical.io2.xlarge
数据目录磁盘空间使用率超过阈值 告警解释 系统每30秒周期性检查DBServer主节点的数据目录磁盘空间使用率,并把实际数据目录磁盘空间使用率和阈值相比较,当数据目录磁盘空间使用率连续5次(可配置,默认值为5)超过设定阈值时,系统将产生此告警。数据目录磁盘空间使用率的阈值设为80%(可配置,默认值为80%)。
ALM-12016 CPU使用率超过阈值(2.x及以前版本) 告警解释 系统每30秒周期性检测CPU使用率,并把实际CPU使用率和阈值相比较。CPU使用率默认提供一个阈值。当检测到CPU使用率连续多次(可配置,默认值为10)超过该阈值时产生该告警。 当平均CPU使用率小于或等于阈值的90%时,告警恢复。
出现此告警时,说明当前RangerAdmin设置的堆内存无法满足当前RangerAdmin进程所需的堆内存,建议根据2查看“RangerAdmin堆内存使用率”,调整“GC_OPTS”参数中“-Xmx”的值为“RangerAdmin使用的堆内存大小”的两倍(可根据实际业务场景进行修改)。
出现此告警时,说明当前PolicySync设置的堆内存无法满足当前PolicySync进程所需的堆内存,建议根据2查看“PolicySync堆内存使用率”,调整“GC_OPTS”参数中“-Xmx”的值为“PolicySync使用的堆内存大小”的两倍(可根据实际业务场景进行修改)。 重
ALM-19017 在ZooKeeper上的容量配额使用率超过阈值 告警解释 系统每120秒周期性检测HBase服务的znode使用情况,当检测到HBase服务的znode容量使用率超出告警的阈值(默认75%)时产生该告警。 当znode的容量使用率小于告警的阈值时,告警恢复。 告警属性 告警ID
如何查看哪个ZooKeeper实例是Leader 问题 如何查看ZooKeeper实例的角色是Leader还是Follower? 回答 登录集群Manager管理界面,选择“集群 > 服务 > ZooKeeper > 实例”。 单击相应的quorumpeer实例名称,进入对应实例的详情页面。