检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
集群在线扩缩容 大数据集群的处理能力通常可以通过增加集群的节点数来横向扩展,当集群规模不符合业务要求时,用户可以通过该功能进行集群节点规模的调整,进行扩容或者缩容;在缩容节点时,MRS会智能地选择负载最少或者迁移数据量最小节点,并且在缩容过程中,缩容节点不再接收新的任务,正在执行
在线检索MRS集群日志 MRS集群Manager支持在线检索并显示组件的日志内容,用于问题定位等其他日志查看场景,管理员可在线按照节点范围或者组件角色范围快速检视所有日志,通过关键字分析快速定位问题。 本章节操作仅支持MRS 3.x及之后的版本。 在线检索日志 登录FusionInsight
检测Yarn内存使用情况 配置场景 针对所提交应用的内存使用无法预估的情况,可以通过修改服务端的配置项控制是否对内存使用进行检测。 若不检测内存使用,Container会占用内存直到内存溢出;若检测内存使用,当内存使用超过配置的内存大小时,相应的Container会被kill掉。
检测Yarn内存使用情况 配置场景 针对所提交应用的内存使用无法预估的情况,可以通过修改服务端的配置项控制是否对内存使用进行检测。 如果不检测内存使用,Container会占用内存直到内存溢出;如果检测内存使用,当内存使用超过配置的内存大小时,相应的Container会被kill掉。
ALM-19022 HBase热点检测功能不可用 告警解释 HBase服务安装MetricController实例时,告警模块按120秒周期检测HBase MetricController主实例健康状态。当HBase MetricController主实例不存在或不可用时,热点检测功能不可用,上报该告警。
Oozie连接DBService状态异常 告警解释 Oozie会依赖DBService,提交任务后系统会检测DBService连接状态,当检测到与DBService的连接状态连续10次异常时,产生该告警。 当检测到Oozie连接DBService状态正常时,告警清除。 告警属性 告警ID 告警级别
ALM-17010 Oozie连接HDFS状态异常 告警解释 Oozie会依赖HDFS,提交任务后系统会检测HDFS连接状态,当检测到与HDFS的连接状态连续3次异常时,产生该告警。 当检测到Oozie连接HDFS状态正常时,告警清除。 告警属性 告警ID 告警级别 是否可自动清除 17010
ALM-17011 Oozie连接Yarn状态异常 告警解释 Oozie会依赖Yarn,提交任务后系统会检测Yarn连接状态,当检测到与Yarn的连接状态连续5次异常时,产生该告警。 当检测到Oozie连接Yarn状态正常时,告警清除。 告警属性 告警ID 告警级别 是否可自动清除 17011
ALM-12104 knox资源异常 告警解释 HA每70秒周期性检测Manager的knox资源。当HA连续3次检测到knox资源异常时,产生该告警。 当HA检测到knox资源正常后,告警恢复。 告警属性 告警ID 告警级别 是否自动清除 12104 重要 是 告警参数 参数名称
Oozie连接ZooKeeper状态异常 告警解释 在HA模式下,Oozie会依赖ZooKeeper,当检测到与ZooKeeper的连接状态连续3次异常时,产生该告警。 当检测到Oozie连接ZooKeeper状态正常时,告警清除。 告警属性 告警ID 告警级别 是否可自动清除 17008
ALM-12015 设备分区文件系统只读(2.x及以前版本) 告警解释 系统周期性进行扫描,如果检测到挂载服务目录的设备分区变为只读模式(如设备有坏扇区、文件系统存在故障等原因),则触发此告警。 系统如果检测到挂载服务目录的设备分区的只读模式消失(比如文件系统修复为读写模式、设备拔出、设备被重新格式化等原因),则告警恢复。
ZooKeeper连接断开 告警解释 系统每分钟检测一次ClickHouse和ZooKeeper的连接情况,如果检测连接失败,系统产生告警(告警原因为ZooKeeper连接异常)。如果连续3次检测连接失败,系统产生告警(告警原因为ZooKeeper连接断开)。 当系统检测到有一次连接成功,告警自动清除。
ALM-12015 设备分区文件系统只读 告警解释 系统按60秒周期进行扫描,如果检测到挂载服务目录的设备分区变为只读模式(如设备有坏扇区、文件系统存在故障等原因),则触发此告警。 系统如果检测到挂载服务目录的设备分区的只读模式消失(比如文件系统修复为读写模式、设备拔出、设备被重新格式化等原因),则告警恢复。
产生告警的主机名。 对系统的影响 diskmgt磁盘监控服务不可用时,影响系统对磁盘信息和分区信息的监控,如设备分区文件系统只读检测、设备分区丢失检测、磁盘分区扩容检测等。 可能原因 diskmgt磁盘监控服务不存在。 diskmgt磁盘监控服务未启动。 处理步骤 检查diskmgt磁盘监控服务是否存在。
ALM-29000 Impala服务不可用 告警解释 以30s为周期检测Impala服务状态,当检测到Impala服务异常时,系统产生此告警。 当系统检测到Impala服务恢复正常,或告警处理完成时,告警解除。 告警属性 告警ID 告警级别 是否可自动清除 29000 紧急 是 告警参数
ALM-45425 ClickHouse服务不可用 告警解释 告警模块按60秒周期检测ClickHouse实例状态,当检测到所有ClickHouse实例异常时,系统产生此告警。 当系统检测到任一ClickHouse实例恢复正常,且告警处理完成时,告警恢复。 告警属性 告警ID 告警级别
JobHistory GC 时间超出阈值(2.x及以前版本) 告警解释 系统每60秒周期性检测JobHistory进程的GC时间,当检测到JobHistory进程的GC时间超出阈值(连续3次检测超过12秒)时产生该告警。 用户可通过“系统设置 > 阈值配置 > 服务 > Spark
告警解释 系统按30秒周期性检测LdapServer数据,如果连续12次检测,Manager的主备LdapServer的数据内容都不一致,产生该告警,当两者的数据一致时,对应告警恢复。 系统按30秒周期性检测LdapServer数据,如果连续12次检测,集群中的LdapServe
ALM-45615 CDL服务不可用 告警解释 系统每60秒周期检测CDL健康状态,当检测到CDL健康状态为DOWN时,系统产生此告警。当系统检测到CDL健康状态为UP,告警恢复。 告警属性 告警ID 告警级别 是否自动清除 45615 紧急 是 告警参数 参数名称 参数含义 来源
ALM-50201 Doris服务不可用 告警解释 告警模块按60秒周期检测Doris服务状态,当检测到所有FE和BE实例异常时,系统产生此告警。 当系统检测到任意FE或BE实例恢复正常,告警恢复。 告警属性 告警ID 告警级别 是否可自动清除 50201 紧急 是 告警参数 参数名称