搜索_华为云

ALM-14033 ZKFC进程状态异常 - MapReduce服务 MRS

ALM-14033 ZKFC进程状态异常告警解释 ZKFC每20秒周期性检查进程状态，当进程状态异常，且长时间未转换为正常状态时触发该告警。进程状态正常后告警清除。告警属性告警ID 告警级别是否可自动清除 14033 重要是告警参数参数名称参数含义来源产生告警的集群名称。

帮助中心 > MapReduce服务 MRS > 用户指南 > MRS集群运维 > MRS集群告警处理参考
ALM-14031 DataNode进程状态异常 - MapReduce服务 MRS

ALM-14031 DataNode进程状态异常告警解释 DataNode每20秒周期性检查进程状态，当进程状态异常，且长时间未转换为正常状态时触发该告警。进程状态正常后告警清除。告警属性告警ID 告警级别是否可自动清除 14031 重要是告警参数参数名称参数含义来源

 帮助中心 > MapReduce服务 MRS > 用户指南 > MRS集群运维 > MRS集群告警处理参考
ALM-14034 Router进程状态异常 - MapReduce服务 MRS

ALM-14034 Router进程状态异常告警解释 Router每20秒周期性检查进程状态，当进程状态异常，且长时间未转换为正常状态时触发该告警。进程状态正常后告警清除。告警属性告警ID 告警级别是否可自动清除 14034 重要是告警参数参数名称参数含义来源

 帮助中心 > MapReduce服务 MRS > 用户指南 > MRS集群运维 > MRS集群告警处理参考
ALM-45334 Presto Worker4线程数超过阈值 - MapReduce服务 MRS

Presto并发执行的任务过多。处理步骤检查当前集群CPU负载是否正常，SQL并发量是否符合预期。是，执行2。否，执行4。调整线程数告警触发阈值。在FusionInsight Manager 首页，单击“运维 > 告警 > 阈值设置 > 待操作集群的名称 > Presto”，找到“线程数

 帮助中心 > MapReduce服务 MRS > 用户指南 > MRS集群运维 > MRS集群告警处理参考
ALM-18023 Yarn任务挂起数超过阈值 - MapReduce服务 MRS

告警解释告警模块按60秒周期检测Yarn队列上pending的应用的数量，当root队列上处于pending状态的应用的数量超过60时，触发该告警。告警属性告警ID 告警级别是否自动清除 18023 重要是告警参数参数名称参数含义来源产生告警的集群名称。队列名

 帮助中心 > MapReduce服务 MRS > 用户指南 > MRS集群运维 > MRS集群告警处理参考
回滚补丁 - MapReduce服务 MRS
回滚补丁 - MapReduce服务 MRS

DL和IoTDB服务表2 重启策略以及影响组件重启策略影响范围影响时间 meta 直接重启 Yarn超大频率获取临时AKSK时可能触发流控，正常场景不涉及。耗时约5分钟。滚动重启滚动重启不影响业务。滚动重启10个节点耗时约20分钟。 DBService 直接重启

 帮助中心 > MapReduce服务 MRS > 用户指南 > MRS集群运维 > MRS集群补丁说明 > MRS 3.2.0-LTS.1.10补丁说明 > 回滚补丁
ALM-45333 Presto Worker3线程数超过阈值 - MapReduce服务 MRS

Presto并发执行的任务过多。处理步骤检查任务并发量检查当前集群CPU负载是否正常，SQL并发量是否符合预期。是，执行2。否，执行4。调整线程数告警触发阈值。在FusionInsight Manager 首页，单击“运维 > 告警 > 阈值设置 > 待操作集群的名称 > Presto”，找到“线程数

 帮助中心 > MapReduce服务 MRS > 用户指南 > MRS集群运维 > MRS集群告警处理参考
ALM-18026 Yarn上运行失败的任务数超过阈值 - MapReduce服务 MRS

告警模块按60秒周期检测Yarn root队列上失败的应用的数量，当root队列上该监控周期内新增的运行失败的应用的数量超过50时，且连续发生3次以上，触发该告警。告警属性告警ID 告警级别是否自动清除 18026 重要是告警参数参数名称参数含义来源产生告警的集群名称。服务名

 帮助中心 > MapReduce服务 MRS > 用户指南 > MRS集群运维 > MRS集群告警处理参考
提交Storm拓扑后Worker日志为空 - MapReduce服务 MRS

提交Storm拓扑后Worker日志为空现象描述在Eclipse中远程提交拓扑成功之后，无法在Storm WebUI查看拓扑的详细信息，并且每个拓扑的Bolt和Spout所在Worker节点在一直变化。查看Worker日志，日志内容为空。可能原因 Worker进程启动失败，触发Nimbus重新分配任务，在

 帮助中心 > MapReduce服务 MRS > 故障排除 > 使用Storm
ALM-18024 Yarn任务挂起内存量超阈值 - MapReduce服务 MRS

ALM-18024 Yarn任务挂起内存量超阈值告警解释告警模块按60秒周期检测Yarn当前挂起的内存量大小，当Yarn上面挂起的内存量大小超过阈值时，触发该告警。挂起的内存量表示当前所有提交的Yarn应用还没有满足的内存量总和。告警属性告警ID 告警级别是否自动清除 18024 重要是

 帮助中心 > MapReduce服务 MRS > 用户指南 > MRS集群运维 > MRS集群告警处理参考
ALM-50224 BE上执行的各类任务中是否存在某种类型的任务失败次数有增长趋势 - MapReduce服务 MRS

Condition 系统当前指标取值满足自定义的告警设置条件。对系统的影响导致某个场景下任务持续执行失败。可能原因可能存在某个BE的异常点导致任务触发场景下失败任务增长。处理步骤检查告警阈值配置或者平滑次数配置是否合理。登录FusionInsight Manager，选择“运维 >

帮助中心 > MapReduce服务 MRS > 用户指南 > MRS集群运维 > MRS集群告警处理参考
Apache Log4j2 远程代码执行漏洞（CVE-2021-44228）公告 - MapReduce服务 MRS

Log4j2存在一处远程代码执行漏洞（CVE-2021-44228），在引入Apache Log4j2处理日志时，会对用户输入的内容进行一些特殊的处理，攻击者可以构造特殊的请求，触发远程代码执行。目前POC已公开，风险较高。具体漏洞详情，请参见Apache Log4j2 远程代码执行漏洞（CVE-2021-44228）。

帮助中心 > MapReduce服务 MRS > 服务公告 > 漏洞公告
ALM-50401 JobServer中等待执行的任务数超过阈值 - MapReduce服务 MRS

JobServer中等待执行的任务数超过阈值告警解释系统每30秒周期性检测提交到JobServer的作业数量，当等待执行的作业数量超过800时，触发该告警。告警属性告警ID 告警级别是否可自动清除 50401 紧急（默认阈值为900）重要（默认阈值为800）是告警参数参数名称

 帮助中心 > MapReduce服务 MRS > 用户指南 > MRS集群运维 > MRS集群告警处理参考
SparkSQL读取ORC表报错 - MapReduce服务 MRS

该问题为一个开源社区问题：https://issues.apache.org/jira/browse/HIVE-11102，使用开源的hive 1.2.1版本包就有可能触发此问题。 MRS的Hive for Spark相关模块已修复该问题。处理步骤使用MRS集群自带的Hive for Spark包： hive-beeline-1

帮助中心 > MapReduce服务 MRS > 故障排除 > 使用Spark
回滚补丁 - MapReduce服务 MRS
回滚补丁 - MapReduce服务 MRS

ngine计算实例表2 重启策略以及影响组件名称重启策略影响范围影响时间 meta 直接重启 Yarn超大频率获取临时AKSK时可能触发流控，正常场景不涉及。耗时约5分钟。滚动重启滚动重启不影响业务。滚动重启10个节点耗时约20分钟。 DBService 直接重启

 帮助中心 > MapReduce服务 MRS > 用户指南 > MRS集群运维 > MRS集群补丁说明 > MRS 3.3.1-LTS.1.2补丁说明 > 回滚补丁
通过Spark-sql创建Hudi表或者Hive表，未插入数据前，查询表统计信息为空 - MapReduce服务 MRS

通过spark-sql创建Hudi表或者Hive表，未插入数据之前，查询表统计信息都为空。回答可以通过以下两种方式生成：手动通过analyze命令，触发统计信息收集。如果没有插入数据，analyze命令执行完之后，再通过desc formatted table_name命令查询totalsize等于0。

帮助中心 > MapReduce服务 MRS > 组件操作指南（LTS版） > 使用Spark/Spark2x > Spark故障排除
MRS集群阈值类告警配置说明 - MapReduce服务 MRS

服务的可靠性，一旦发生leader切换，可能会导致丢数据。 50% broker上用户连接数使用率 38011 Broker上用户连接数使用率超过设定阈值当同一个用户连接数太多时，产生告警的用户将无法与Broker建立新的连接。 80% Broker磁盘使用率 38001 Kafka磁盘容量不足

 帮助中心 > MapReduce服务 MRS > 最佳实践 > MRS集群管理
ALM-45445 ClickHouse写入分布式表时发送数据文件到远端分片失败 - MapReduce服务 MRS

本章节仅适用于MRS 3.3.1及之后版本。告警解释 ClickHouse实例分布式表检查模块300秒检查一次，如果连续失败的次数超过配置的阈值，则触发上报告警，此时ClickHouse写入分布式表的节点无法正常发送数据文件到远端分片节点。当系统检测到连续失败的次数低于阈值时，告警恢复。

帮助中心 > MapReduce服务 MRS > 用户指南 > MRS集群运维 > MRS集群告警处理参考
ALM-50407 JobServer查询作业接口失败率超过阈值 - MapReduce服务 MRS

本章节仅适用于MRS 3.5.0及之后版本。告警解释系统每30秒周期性检测JobServer中查询失败的接口占比，当失败率超出阈值（默认值为80%）时，触发该告警。当失败率低于阈值时，告警恢复。告警属性告警ID 告警级别是否可自动清除 50407 紧急是告警参数参数名称参数含义

 帮助中心 > MapReduce服务 MRS > 用户指南 > MRS集群运维 > MRS集群告警处理参考
ALM-12180 磁盘卡IO - MapReduce服务 MRS

告警解释 MRS 3.3.0及之后版本、MRS 3.1.0.0.10/3.1.5.0.3及之后补丁版本：对于HDD盘，满足以下任意条件时触发告警：系统默认每3秒采集一次数据，在30秒内至少7个采集周期的svctm时延达到6秒。系统默认每3秒采集一次数据，在30秒内至少10个

 帮助中心 > MapReduce服务 MRS > 用户指南 > MRS集群运维 > MRS集群告警处理参考

总条数： 3250

点击加载更多

您搜索到想要的结果了吗？

是的没搜到

意见反馈

/200

提交反馈取消

ALM-14033 ZKFC进程状态异常 - MapReduce服务 MRS

ALM-14031 DataNode进程状态异常 - MapReduce服务 MRS

ALM-14034 Router进程状态异常 - MapReduce服务 MRS

ALM-45334 Presto Worker4线程数超过阈值 - MapReduce服务 MRS

ALM-18023 Yarn任务挂起数超过阈值 - MapReduce服务 MRS

回滚补丁 - MapReduce服务 MRS

ALM-45333 Presto Worker3线程数超过阈值 - MapReduce服务 MRS

ALM-18026 Yarn上运行失败的任务数超过阈值 - MapReduce服务 MRS

提交Storm拓扑后Worker日志为空 - MapReduce服务 MRS

ALM-18024 Yarn任务挂起内存量超阈值 - MapReduce服务 MRS

ALM-50224 BE上执行的各类任务中是否存在某种类型的任务失败次数有增长趋势 - MapReduce服务 MRS

Apache Log4j2 远程代码执行漏洞（CVE-2021-44228）公告 - MapReduce服务 MRS

ALM-50401 JobServer中等待执行的任务数超过阈值 - MapReduce服务 MRS

SparkSQL读取ORC表报错 - MapReduce服务 MRS

回滚补丁 - MapReduce服务 MRS

通过Spark-sql创建Hudi表或者Hive表，未插入数据前，查询表统计信息为空 - MapReduce服务 MRS

MRS集群阈值类告警配置说明 - MapReduce服务 MRS

ALM-45445 ClickHouse写入分布式表时发送数据文件到远端分片失败 - MapReduce服务 MRS

ALM-50407 JobServer查询作业接口失败率超过阈值 - MapReduce服务 MRS

ALM-12180 磁盘卡IO - MapReduce服务 MRS

意见反馈

7*24

备案

专业服务

退订

建议反馈

售前咨询热线