检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
ALM-24000 Flume服务不可用 告警解释 告警模块按180秒周期检测Flume服务状态,当检测到Flume服务异常时,系统产生此告警。 当系统检测到Flume服务恢复正常,且告警处理完成时,告警恢复。 告警属性 告警ID 告警级别 是否自动清除 24000 紧急 是 告警参数
ALM-25500 KrbServer服务不可用 告警解释 系统按30秒周期性检测组件KrbServer的服务状态。当检测到组件KrbServer服务异常时产生该告警。 当检测到组件KrbServer服务恢复时告警恢复。 告警属性 告警ID 告警级别 是否自动清除 25500 紧急
ALM-29012 Impalad 正在等待的查询总数超过阈值 告警解释 以60s为周期检测该Impalad节点正在等待的查询总数,当检测到的数量超过自定义阈值(默认150)时,系统产生此告警。 当系统检测到的数量减少到阈值以下时,告警将自动解除。 告警属性 告警ID 告警级别 是否自动清除
5版本:系统每60秒周期性检测Impalad的Hive Server2 HTTP端口(28000)是否响应curl请求,当返回结果不正确(连续2次检测超过20秒)时产生该告警,当curl请求在20秒内正确响应时,告警恢复。 除MRS 3.1.5的其他版本:系统每60秒周期性检测Impalad是否能执行select
JDBCServer2x进程Full GC次数超出阈值 告警解释 系统每60秒周期性检测JDBCServer2x进程的Full GC次数,当检测到JDBCServer2x进程的Full GC次数超出阈值(连续3次检测超过12次)时产生该告警。用户可通过“运维 > 告警 > 阈值设置 > Spark2x
ALM-12070 controller资源异常 告警解释 HA每80秒周期性检测Manager的controller资源。当HA连续2次检测到controller资源异常时,产生该告警。 当HA检测到controller资源正常后,告警恢复。 controller资源为单主资源
ALM-12103 executor资源异常 告警解释 HA每30秒周期性检测Manager的executor资源。当HA连续2次检测到executor资源异常时,产生该告警。 当HA检测到executor资源正常后,告警恢复。 executor资源为单主资源,一般资源异常会导致
ALM-17011 Oozie连接Yarn状态异常 告警解释 Oozie会依赖Yarn,提交任务后系统会检测Yarn连接状态,当检测到与Yarn的连接状态连续5次异常时,产生该告警。 当检测到Oozie连接Yarn状态正常时,告警清除。 告警属性 告警ID 告警级别 是否可自动清除 17011
); select cast(186 as varchar); try_cast(value AS type) → type 与cast()相似,区别是转换失败返回null。 select try_cast(1860 as tinyint); _col0 ------- NULL
ALM-12002 HA资源异常(2.x及以前版本) 告警解释 HA软件周期性检测Manager的WebService浮动IP地址和Manager的数据库。当HA软件检测到浮动IP地址或数据库异常时,产生该告警。 当HA检测到浮动IP地址或数据库正常后,告警恢复。 告警属性 告警ID 告警级别
ALM-25500 KrbServer服务不可用(2.x及以前版本) 告警解释 系统按30秒周期性检测组件KrbServer的服务状态。当检测到组件KrbServer服务异常时产生该告警。 当检测到组件KrbServer服务恢复时告警恢复。 告警属性 告警ID 告警级别 可自动清除 25500
节点。增加任务的并行度,充分利用集群机器的计算能力,一般并行度设置为集群CPU总和的2-3倍。 操作步骤 并行度可以通过如下三种方式来设置,用户可以根据实际的内存、CPU、数据以及应用程序逻辑的情况调整并行度参数。 在会产生shuffle的操作函数内设置并行度参数,优先级最高。 testRDD
本章节仅适用于MRS 3.1.5及之后版本。 告警解释 系统每60秒周期性检测TokenServer服务直接内存使用状态,当连续5次检测到TokenServer实例直接内存使用率超出阈值(最大内存的80%)时,产生该告警。 当系统检测到TokenServer直接内存使用率小于或等于阈值时,告警恢复。
ALM-16007 Hive GC 时间超出阈值 告警解释 系统每60秒周期性检测Hive服务的GC时间,当检测到Hive服务的GC时间超出阈值(连续3次检测超过12秒)时产生该告警。用户可通过“运维 > 告警 > 阈值设置 > 待操作集群的名称 > Hive”修改阈值。当Hive
ALM-29011 Impalad 正在执行的查询总数超过阈值 告警解释 以60s为周期检测该Impalad节点正在执行的查询总数,当检测到的数量超过自定义阈值(默认150)时,系统产生此告警。 当系统检测到的数量减少到阈值以下时,告警将自动解除。 告警属性 告警ID 告警级别 是否自动清除
ALM-12091 disaster资源异常 告警解释 HA每86秒周期性检测Manager的disaster资源。当HA连续10次检测到disaster资源异常时,产生该告警。 当HA检测到disaster资源正常后,告警恢复。 disaster资源为单主资源,一般资源异常会导
ClickHouse访问OBS失败 本章节仅适用于MRS 3.3.1及之后版本。 告警解释 系统配置冷热分离功能后,每隔1分钟检测一次当前访问OBS的状态,当连续3次检测到访问OBS失败时,系统产生告警。 当检测到系统访问OBS成功时,告警自动消除。 告警属性 告警ID 告警级别 是否可自动清除 45451 紧急
ALM-25000 LdapServer服务不可用 告警解释 系统按30秒周期性检测LdapServer的服务状态,当检测到两个LdapServer服务均异常时产生该告警。 当检测到一个或两个LdapServer服务恢复时告警恢复。 告警属性 告警ID 告警级别 是否自动清除 25000
ALM-29014 Catalog FGCT超过阈值 告警解释 系统每60秒周期性检测Catalog服务的FGC时间,当检测到的FGC时间超出阈值(连续5次检测超过12秒)时产生该告警,当FGC时间小于或等于阈值时,告警恢复。 告警属性 告警ID 告警级别 是否自动清除 29014
ALM-29015 Catalog进程内存占用率超过阈值 告警解释 以30s为周期检测Catalog进程系统内存占用率,当检测到的超过默认阈值(80%)时,系统产生此告警。 当系统检测到进程内存占用率下降到阈值以下时,告警将自动解除。 告警属性 告警ID 告警级别 是否自动清除 29015