检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
ALM-45617 CDL复制槽Slot积压数据量超过阈值 告警解释 PostgreSQL或Opengauss(适用于MRS 3.3.0及之后版本)积压过多的WAL日志,可能导致PostgreSQL或Opengauss磁盘空间耗尽。系统每5分钟检查CDL任务配置的复制槽Slot积压数据量是否超
Map阶段的调优 判断Map使用的内存大小 判断Map分配的内存是否足够,一个简单的办法是查看运行完成的job的Counters中,对应的task是否发生过多次GC,以及GC时间占总task运行时间之比。通常,GC时间不应超过task运行时间的10%,即GC time elapsed (ms)/CPU
IoTDB常用配置参数 操作场景 IoTDB通过多副本的部署架构实现了集群的高可用,每个Region(DataRegion和SchemaRegion)默认具有3个副本,也可配置3个以上。当某节点故障时,Region副本的其他主机节点上的副本可替代工作,保证服务能正常运行,提高集群的稳定性。
而已经存在的连接需要等待一段时间才能完成,配置合适的超时时间参数能尽可能地保证业务不中断。 批次容错阈值 0 滚动重启实例批次执行失败容错次数,默认为0,即表示任意一个批次的实例重启失败后,滚动重启任务终止。 组件重启参考信息 当前MRS集群中,服务和实例是否支持滚动重启如表2所示。
周期时间内查询总次数 INFO active_success_count 周期时间内主集群查询成功次数 INFO active_error_count 周期时间内主集群查询失败次数 INFO active_timeout_count 周期时间内主集群查询超时次数 INFO standby_success_count
JDBCServer进程进行请求转发的时候,当触发Session资源不足流控后,会产生该告警。此时说明发送到JDBCServer进程的请求过多,超出JDBCServer进程目前的承受范围。 告警属性 告警ID 告警级别 是否可自动清除 43028 重要(默认连续3次检测超过9次)
周期时间内查询总次数 INFO active_success_count 周期时间内主集群查询成功次数 INFO active_error_count 周期时间内主集群查询失败次数 INFO active_timeout_count 周期时间内主集群查询超时次数 INFO standby_success_count
Yarn企业级能力增强 配置Yarn权限控制开关 手动指定运行Yarn任务的用户 配置AM失败重试次数 配置AM自动调整分配内存 配置AM作业自动保留 配置Yarn数据访问通道协议 配置自定义调度器的WebUI 配置NodeManager角色实例使用的资源 配置ResourceM
e来不及处理导致超时。 DataNode增量上报太慢,NameNode无法及时分配新的Block。 出现该报错作业不会立即异常,在超过重试次数时才会通知作业异常。可以适当增大HDFS参数“dfs.client.block.write.retries”配置,例如:“dfs.client
发生故障时作业会直接失败,不会尝试重启。 参数配置为: restart-strategy: none fixed-delay策略 发生故障时会尝试重启作业固定次数,如果超过了最大的尝试次数,作业最终会失败。并且在两次连续重启尝试之间,重启策略会等待固定的时间。 以配置如果重启失败了3次则认为该Job失败,重试时间间隔为10s为例,参数配置为:
95% GC次数 JDBCServer2x的Full GC次数 JDBCServer2x进程的Full GC次数。 12 JobHistory2x的Full GC次数 JobHistory2x进程的Full GC次数。 12 IndexServer2x的Full GC次数 IndexServer2x进程的Full
系统当前指标取值满足自定义的告警设置条件。 对系统的影响 发生当前告警时,表示连接到MetaStore的session数过多,将会导致无法建立新的连接。 可能原因 连接MetaStore的客户端过多。 处理步骤 修改MetaStore的最大连接数配置。 在FusionInsight Manager首页,选择“集群
Condition 系统当前指标取值满足自定义的告警设置条件 对系统的影响 查询可能会阻塞甚至失败。 可能原因 该Impalad服务维护的查询数量过多,或者阈值设定的太小。 处理步骤 在FusionInsight Manager首页,选择“运维 > 告警 > 阈值设置 > Impala >
尽可能地保证业务不中断。 说明: 该参数仅在滚动重启Hive、Spark2x时可设置。 “批次容错阈值” 0 滚动重启实例批次执行失败容错次数,默认为0,即表示任意一个批次的实例重启失败后,滚动重启任务终止。 “数据节点滚动重启并发数”、“批次时间间隔”、“批次容错阈值”等高级参
Condition 系统当前指标取值满足自定义的告警设置条件 对系统的影响 查询可能会阻塞甚至失败。 可能原因 该Impalad服务维护的查询数量过多,或者阈值设定的太小。 处理步骤 在FusionInsight Manager首页,选择“运维 > 告警 > 阈值设置 > Impala >
当前大数据领域的SQL引擎层出不穷,在带给解决方案多样性的同时,也暴露出一定的问题,例如SQL输入语句质量良莠不齐、SQL问题难定位、大SQL语句消耗资源过多等。 低质量的SQL会对数据分析平台系统带来不可预料的冲击,影响系统的性能或者平台稳定性。 SQL防御功能仅MRS 3.3.0及之后版本集群支持。
IoTDB应用开发规则 设置合理数量的存储组 设置合理数量的存储组可以带来性能的提升。既不会因为产生过多的存储文件(夹)导致频繁切换IO降低系统速度(并且会占用大量内存且出现频繁的内存-文件切换),也不会因为过少的存储文件夹(降低了并发度从而)导致写入命令阻塞。 应根据自己的数据
SQL引擎支持的各类型SQL防御规则可参考MRS SQL防御规则。 例如添加一条规则ID为“static_0001”,SQL语句中count distinct出现次数超过2就进行“提示”的规则。 图1 添加Hive SQL防御规则 登录安装有Hive客户端的节点,执行以下命令,切换到客户端安装目录。 cd
系统当前指标取值满足自定义的告警设置条件 对系统的影响 后续新建立客户端连接可能会阻塞甚至失败。 可能原因 已经和Impala服务端建立的连接过多,或者阈值设定的太小。 处理步骤 在FusionInsight Manager首页,选择“运维 > 告警 > 阈值设置 > Impala >
Condition 系统当前指标取值满足自定义的告警设置条件 对系统的影响 查询可能会阻塞甚至失败。 可能原因 该Impalad服务维护的查询数量过多,或者阈值设定的太小。 处理步骤 在FusionInsight Manager首页,选择“运维 > 告警 > 阈值设置 > Impala >