检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
ALM-24009 Flume Server垃圾回收(GC)时间超过阈值 告警解释 系统每60秒周期性检测Flume进程的垃圾回收(GC)占用时间,当连续5次检测到Flume进程的垃圾回收(GC)时间超出阈值(默认12秒)时,产生该告警。垃圾回收(GC)时间小于阈值时,告警恢复。
ALM-45446 ClickHouse的mutation任务长时间未执行完成 本章节仅适用于MRS 3.3.1及之后版本。 告警解释 系统每隔5分钟检测一次mutation任务,当检测到有正在执行的mutation任务且运行时间大于等于阈值slow_mutation_cost_time
ALM-14022 NameNode RPC队列平均时间超过阈值 告警解释 系统每30秒周期性检测NameNode的RPC队列平均时间,并把实际的NameNode的RPC队列平均时间和阈值(默认为200ms)相比较。当检测到NameNode的RPC队列平均时间连续多次(默认为10次
如何修复长时间处于RIT状态的Region 问题 在HBase WEBUI界面看到有长时间处于RIT状态的Region,如何修复? 回答 登录HMaster WebUI,在导航栏选择“Procedure & Locks”,查看是否有处于Waiting状态的process id。如果有
ALM-45284 UserSync垃圾回收(GC)时间超过阈值 告警解释 系统每60秒周期性检测UserSync进程的垃圾回收(GC)占用时间,当连续5次检测到UserSync进程的垃圾回收(GC)时间超出阈值(默认12秒)时,产生该告警。垃圾回收(GC)时间小于阈值时,告警恢复
ALM-45587 IoTDBServer垃圾回收(GC)时间超过阈值 告警解释 系统每60秒周期性检测IoTDBServer进程的垃圾回收(GC)时间,当检测到IoTDBServer进程的垃圾回收(GC)连续3次超过阈值(默认12秒)时产生该告警。用户可通过“运维 > 告警 >
ALM-43009 JobHistory2x进程GC时间超出阈值 告警解释 系统每60秒周期性检测JobHistory2x进程的GC时间,当检测到JobHistory2x进程的GC时间超出阈值(连续3次检测超过12秒)时产生该告警。用户可通过“运维 >告警 > 阈值设置 > Spark2x
ALM-45327 Presto Coordinator进程垃圾收集时间超出阈值 本章节仅适用于MRS 3.1.5及之后版本。 告警解释 系统每30s周期性采集Presto Coordinator进程的垃圾收集(GC)时间,当检测到GC时间超出阈值(连续3次检测超过5s)时产生该告警
多流Join场景支持配置表级别的TTL时间 本章节适用于MRS 3.3.0及以后版本。 在Flink双流Join场景下,如果Join的左表和右表其中一个表数据变化快,需要较短时间的过期时间,而另一个表数据变化较慢,需要较长时间的过期时间。目前Flink只有表级别的TTL(Time
如何修复长时间处于RIT状态的Region 问题 在HBase WebUI界面看到有长时间处于RIT状态的Region,如何修复? 回答 登录HMaster WebUI,在导航栏选择“Procedure & Locks”,查看是否有处于Waiting状态的process id。如果有
由于主备Master节点时间未同步导致ZooKeeper服务不可用 问题背景与现象 MRS集群ZooKeeper服务无法启动,出现ZooKeeper服务不可用告警。 原因分析 以root用户登录主、备Master节点,执行ntpq -p命令查看两节点时间未同步。 解决办法 以root
备NameNode节点长时间未启动,导致启动失败 问题 长时间没有启动备NameNode,edits文件由于老化策略被自动清理后,重新启动NameNode时找不到所需的edits文件,从而报错。 There appears to be a gap in the edit log.
ALM-45740 TokenServer垃圾回收(GC)时间超过阈值 本章节仅适用于MRS 3.1.5及之后版本。 告警解释 系统每60秒周期性检测TokenServer进程的垃圾回收(GC)占用时间,当连续5次检测到TokenServer进程的垃圾回收(GC)时间超出阈值(默认
ALM-18011 NodeManager进程垃圾回收(GC)时间超过阈值 告警解释 系统每60秒周期性检测NodeManager进程的垃圾回收(GC)占用时间,当检测到NodeManager进程的垃圾回收(GC)时间超出阈值(默认12秒)时,产生该告警。 垃圾回收(GC)时间小于阈值时
ClickHouse长时间并发满,导致不可服务,如何快速恢复 问题描述 ClickHouse并发满,新的请求无法执行,影响服务的可用性,报错信息如下: DB::Exception: Too many simultaneous queries. Maximum: 100 处理步骤 登录
ALM-16053 Hive的HQL最近5分钟平均提交时间超过阈值 告警解释 系统周期性检测HQL平均提交时间,该时间为调用MapReduce/Spark/Tez接口提交Yarn作业的时间,包含上传依赖的临时Jar包、切分文件等时间。当最近5分钟HQL的平均提交时间超过阈值时上报该告警
ALM-45337 Presto Worker3进程垃圾收集时间超出阈值 告警解释 系统每30s周期性采集Presto Worker3进程的垃圾收集(GC)时间,当检测到GC时间超出阈值(连续3次检测超过5s)时产生该告警。当 Worker3进程GC时间小于或等于告警阈值时,告警清除
HDFS网络不稳定场景调优 配置场景 在网络不稳定的情况下,调整如下参数,降低客户端应用运行异常概率。 配置描述 请参考修改集群服务配置参数,进入HDFS的“全部配置”页面,在搜索框中输入参数名称。 表1 参数说明 参数 描述 默认值 ha.health-monitor.rpc-timeout.ms
ALM-44006 Presto Worker进程垃圾收集时间超出阈值 告警解释 系统每30s周期性采集Presto Worker进程的垃圾收集(GC)时间,当检测到GC时间超出阈值(连续3次检测超过5s)时产生该告警。用户可在FusionInsight Manager中通过“运维
ALM-45744 Guardian TokenServer RPC处理平均时间超过阈值 告警解释 系统每30秒周期性检测TokenServer服务RPC处理平均时间,当连续5次检测到TokenServer实例RPC处理平均时间超出阈值时产生该告警。 当系统检测到TokenServer