正在生成
详细信息:
检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
如何修复长时间处于RIT状态的Region 问题 在HBase WEBUI界面看到有长时间处于RIT状态的Region,如何修复? 回答 登录HMaster WebUI,在导航栏选择“Procedure & Locks”,查看是否有处于Waiting状态的process id。如
statement 描述 预处理一条语句,以便以后执行。预处理语句是将查询保存在给定名称的会话中。语句可以包含参数,以代替执行时要替换的文本,参数用问号表示。 示例 预处理查询 PREPARE my_select1 FROM SELECT * FROM fruit; 预处理一个包含参数的查询
节点上下电,RegionServer的wal分裂失败导致。 解决办法 停止HBase组件。 通过hdfs fsck命令检查/hbase/WALs文件的健康状态。 hdfs fsck /hbase/WALs 输出如下表示文件都正常,如果有异常则需要先处理异常的文件,再执行后面的操作。 The filesystem
本规范主要描述基于MRS-Hudi组件进行湖仓一体、流批一体方案的设计与开发方面的规则。其主要包括以下方面的规范: 数据表设计 资源配置 性能调优 常见故障处理 常用参数配置 术语约定 本规范采用以下的术语描述: 规则:编程时强制必须遵守的原则。 建议:编程时必须加以考虑的原则。 说明:对此规则或建议进行的解释。
Coordinator进程不可用。 可能原因 该节点Coordinator进程堆内存使用率过大,或配置的堆内存不合理,导致进程GC频繁。 处理步骤 检查GC时间。 登录MRS集群详情页面,选择“告警管理”。 选中“告警ID”为“44005”的告警,查看“定位信息”中的角色名并确定实例的IP地址。
对系统的影响 直接内存溢出可能导致服务崩溃。 可能原因 节点PolicySync实例直接内存使用率过大,或配置的直接内存不合理,导致使用率超过阈值。 处理步骤 检查直接内存使用率。 在FusionInsight Manager首页,选择“运维 > 告警 > 告警 > ALM-45290 Po
database='库名' and table='表名'; 如果查询出来的结果均为空,执行4。 如果查询出来的结果中有报错信息,请根据报错内容处理,若无法自行处理,执行6; 如果查询出来的结果中有执行中且不存在报错的信息,说明sql/mutation任务正在执行。 执行完成之后等待5min,
的服务器是否可达。 ping 另一个FlinkServer实例IP 是,执行8。 否,执行6。 联系网络管理员处理网络故障。 查看告警列表中,该告警是否已清除。 是,处理完毕。 否,执行8。 检查异常FlinkServer实例所在节点日志中是否有异常提示。 以root用户登录异常
查看日志中,告警时间点前后是否有报错信息。 是,根据相关报错信息进行处理。然后执行13。 例如,查询出报错信息如下,表示目录权限不足,则请修改对应目录权限与正常节点保持一致。 否,执行14。 等待大约10分钟,查看告警列表中,该告警是否已清除。 是,处理完毕。 否,执行14。 收集故障信息。 在FusionInsight
是,处理完毕。 否,执行4.a。 检查磁盘状态。 在MRS集群详情页面,单击“节点管理”并展开节点组信息。 在“磁盘使用率”列,检查磁盘空间是否不足。 是,执行3.c。 否,执行4.a。 对磁盘进行扩容。 等待5分钟后,在“告警管理”页签,查看该告警是否恢复。 是,处理完毕。 否,执行4
d 查看告警列表中,该告警是否已清除。 是,处理完毕。 否,执行3。 收集故障信息。 在MRS Manager界面,单击“系统设置 > 日志导出”。 请联系运维人员,并发送已收集的故障日志信息。 参考信息 无。 父主题: MRS集群告警处理参考
系统当前指标取值满足自定义的告警设置条件。 对系统的影响 用户无法使用Kudu服务。 可能原因 存在KuduTserver实例内存占用率过高。 处理步骤 处理Kudu实例异常 在FusionInsight Manager首页,选择“运维 > 告警 > 告警”页面,找到“ALM-29104 T
查询Spark任务历史执行记录。 可能原因 该节点JobHistory2x进程堆内存使用率过大,或配置的堆内存不合理,导致进程GC频繁。 处理步骤 检查GC时间 在FusionInsight Manager首页,选择“运维 > 告警 > 告警”,选中“ID”为“43009”的告警
OBS元数据接口调用成功率小于阈值,会影响上层大数据计算业务的正常执行,导致某些计算任务的执行失败。 可能原因 OBS服务端出现执行异常或严重超时。 处理步骤 检查堆内存使用率。 在FusionInsight Manager首页,选择“运维 > 告警 > 告警 > OBS元数据接口调用成功率
Coordinator进程不可用。 可能原因 该节点Coordinator进程堆内存使用率过大,或配置的堆内存不合理,导致进程GC频繁。 处理步骤 检查GC时间。 在FusionInsight Manager首页,单击“运维 > 告警 > 告警”,选中“告警ID”为“45327”
否,执行5。 参考“ALM-45644 RocksDB的Level0层SST文件数持续超过阈值”章节处理对应的告警。 ALM-45644告警全部恢复后,等待几分钟,检查本告警是否恢复。 是,处理完毕。 否,执行5。 在TaskManager日志检查缓存命中率并收集日志 使用具有Flink
否,执行5。 参考“ALM-45643 RocksDB的MemTable大小持续超过阈值”章节处理对应的告警。 ALM-45643告警全部恢复后,等待几分钟,检查本告警是否恢复。 是,处理完毕。 否,执行5。 检查是否Level0层SST文件数太大 在FusionInsight Manager首页,选择“运维
的业务进程,可能会导致并发任务处理变慢、业务延迟。 业务失败:主机D状态和Z状态进程数过高时,无法创建新的业务进程,可能会导致作业运行失败。 可能原因 主机中正在等待的IO(磁盘IO、网络IO等)在较长时间内未得到响应,进程处于D状态和Z状态。 处理步骤 查看D状态和Z状态进程。
ZooKeeper堆内存使用率超过阈值”告警。 是,按照“ALM-13004 ZooKeeper堆内存使用率超过阈值”告警进行处理。 否,执行7。 观察界面告警是否清除。 是,处理完毕。 否,执行8。 收集故障信息。 在FusionInsight Manager界面,选择“运维 > 日志 > 下载”。
(例如Yarn、Flink、Spark等)的业务异常。 可能原因 往ZooKeeper数据目录空间写入大量数据。 自定义阈值设置不合理。 处理步骤 检查告警目录是否写入大量数据 在FusionInsight Manager首页,选择“运维 > 告警 > 告警”,单击告警“ALM-13009