检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
ALM-14033 ZKFC进程状态异常 告警解释 ZKFC每20秒周期性检查进程状态,当进程状态异常,且长时间未转换为正常状态时触发该告警。 进程状态正常后告警清除。 告警属性 告警ID 告警级别 是否可自动清除 14033 重要 是 告警参数 参数名称 参数含义 来源 产生告警的集群名称。
ALM-14031 DataNode进程状态异常 告警解释 DataNode每20秒周期性检查进程状态,当进程状态异常,且长时间未转换为正常状态时触发该告警。 进程状态正常后告警清除。 告警属性 告警ID 告警级别 是否可自动清除 14031 重要 是 告警参数 参数名称 参数含义 来源
ALM-14034 Router进程状态异常 告警解释 Router每20秒周期性检查进程状态,当进程状态异常,且长时间未转换为正常状态时触发该告警。 进程状态正常后告警清除。 告警属性 告警ID 告警级别 是否可自动清除 14034 重要 是 告警参数 参数名称 参数含义 来源
Presto并发执行的任务过多。 处理步骤 检查当前集群CPU负载是否正常,SQL并发量是否符合预期。 是,执行2。 否,执行4。 调整线程数告警触发阈值。 在FusionInsight Manager 首页 ,单击“运维 > 告警 > 阈值设置 > 待操作集群的名称 > Presto”,找到“线程数
告警解释 告警模块按60秒周期检测Yarn队列上pending的应用的数量,当root队列上处于pending状态的应用的数量超过60时,触发该告警。 告警属性 告警ID 告警级别 是否自动清除 18023 重要 是 告警参数 参数名称 参数含义 来源 产生告警的集群名称。 队列名
DL和IoTDB服务 表2 重启策略以及影响 组件 重启策略 影响范围 影响时间 meta 直接重启 Yarn超大频率获取临时AKSK时可能触发流控,正常场景不涉及。 耗时约5分钟。 滚动重启 滚动重启不影响业务。 滚动重启10个节点耗时约20分钟。 DBService 直接重启
Presto并发执行的任务过多。 处理步骤 检查任务并发量 检查当前集群CPU负载是否正常,SQL并发量是否符合预期。 是,执行2。 否,执行4。 调整线程数告警触发阈值。 在FusionInsight Manager 首页 ,单击“运维 > 告警 > 阈值设置 > 待操作集群的名称 > Presto”,找到“线程数
告警模块按60秒周期检测Yarn root队列上失败的应用的数量,当root队列上该监控周期内新增的运行失败的应用的数量超过50时,且连续发生3次以上,触发该告警。 告警属性 告警ID 告警级别 是否自动清除 18026 重要 是 告警参数 参数名称 参数含义 来源 产生告警的集群名称。 服务名
提交Storm拓扑后Worker日志为空 现象描述 在Eclipse中远程提交拓扑成功之后,无法在Storm WebUI查看拓扑的详细信息,并且每个拓扑的Bolt和Spout所在Worker节点在一直变化。查看Worker日志,日志内容为空。 可能原因 Worker进程启动失败,触发Nimbus重新分配任务,在
ALM-18024 Yarn任务挂起内存量超阈值 告警解释 告警模块按60秒周期检测Yarn当前挂起的内存量大小,当Yarn上面挂起的内存量大小超过阈值时,触发该告警。挂起的内存量表示当前所有提交的Yarn应用还没有满足的内存量总和。 告警属性 告警ID 告警级别 是否自动清除 18024 重要 是
Condition 系统当前指标取值满足自定义的告警设置条件。 对系统的影响 导致某个场景下任务持续执行失败。 可能原因 可能存在某个BE的异常点导致任务触发场景下失败任务增长。 处理步骤 检查告警阈值配置或者平滑次数配置是否合理。 登录FusionInsight Manager,选择“运维 >
Log4j2存在一处远程代码执行漏洞(CVE-2021-44228),在引入Apache Log4j2处理日志时,会对用户输入的内容进行一些特殊的处理,攻击者可以构造特殊的请求,触发远程代码执行。目前POC已公开,风险较高。具体漏洞详情,请参见Apache Log4j2 远程代码执行漏洞(CVE-2021-44228)。
JobServer中等待执行的任务数超过阈值 告警解释 系统每30秒周期性检测提交到JobServer的作业数量,当等待执行的作业数量超过800时,触发该告警。 告警属性 告警ID 告警级别 是否可自动清除 50401 紧急(默认阈值为900) 重要(默认阈值为800) 是 告警参数 参数名称
该问题为一个开源社区问题:https://issues.apache.org/jira/browse/HIVE-11102,使用开源的hive 1.2.1版本包就有可能触发此问题。 MRS的Hive for Spark相关模块已修复该问题。 处理步骤 使用MRS集群自带的Hive for Spark包: hive-beeline-1
ngine计算实例 表2 重启策略以及影响 组件名称 重启策略 影响范围 影响时间 meta 直接重启 Yarn超大频率获取临时AKSK时可能触发流控,正常场景不涉及。 耗时约5分钟。 滚动重启 滚动重启不影响业务。 滚动重启10个节点耗时约20分钟。 DBService 直接重启
通过spark-sql创建Hudi表或者Hive表,未插入数据之前,查询表统计信息都为空。 回答 可以通过以下两种方式生成: 手动通过analyze命令,触发统计信息收集。如果没有插入数据,analyze命令执行完之后,再通过desc formatted table_name命令查询totalsize等于0。
服务的可靠性,一旦发生leader切换,可能会导致丢数据。 50% broker上用户连接数使用率 38011 Broker上用户连接数使用率超过设定阈值 当同一个用户连接数太多时,产生告警的用户将无法与Broker建立新的连接。 80% Broker磁盘使用率 38001 Kafka磁盘容量不足
本章节仅适用于MRS 3.3.1及之后版本。 告警解释 ClickHouse实例分布式表检查模块300秒检查一次,如果连续失败的次数超过配置的阈值,则触发上报告警,此时ClickHouse写入分布式表的节点无法正常发送数据文件到远端分片节点。 当系统检测到连续失败的次数低于阈值时,告警恢复。
本章节仅适用于MRS 3.5.0及之后版本。 告警解释 系统每30秒周期性检测JobServer中查询失败的接口占比,当失败率超出阈值(默认值为80%)时,触发该告警。 当失败率低于阈值时,告警恢复。 告警属性 告警ID 告警级别 是否可自动清除 50407 紧急 是 告警参数 参数名称 参数含义
告警解释 MRS 3.3.0及之后版本、MRS 3.1.0.0.10/3.1.5.0.3及之后补丁版本: 对于HDD盘,满足以下任意条件时触发告警: 系统默认每3秒采集一次数据,在30秒内至少7个采集周期的svctm时延达到6秒。 系统默认每3秒采集一次数据,在30秒内至少10个