检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
使用OfflineMetaRepair工具重新构建元数据后HMaster启动失败 问题 为什么在使用OfflineMetaRepair工具重新构建元数据后,HMaster启动的时候会等待namespace表分配超时,最后启动失败? 且HMaster将输出下列FATAL消息表示中止:
=> [dryRun]) dryRun为true时,会根据Hudi表配置的TTL策略去检查当前时刻有哪些老化的分区,只打印老化的分区。 dryRun为true时,会根据Hudi表配置的TTL策略去检查当前时刻有哪些老化的分区,并且逻辑删除这些老化的分区。逻辑删除操作会生成一个repa
ALM-45444 ClickHouse进程异常 告警解释 ClickHouse实例健康检查模块30秒检查一次,如果连续失败的次数超过配置的阈值,则触发上报告警,此时ClickHouse进程可能处于停止响应状态,无法正常执行业务。 告警属性 告警ID 告警级别 是否可自动清除 45444
说明: 使用安装客户端的用户执行以下命令加密密码。加密工具第一次执行时自动生成随机动态密钥并保存在“.loader-tools.key”中,加密工具每次加密密码时会使用此动态密钥。删除“.loader-tools.key”后加密工具执行时会重新生成新的随机密钥并保存在“.loader-tools
MRS提供了各组件的常见业务场景样例程序,开发者用户可基于样例工程进行相关数据应用的开发与编译,样例工程依赖的jar包直接通过华为云开源镜像站下载,其他社区开源jar包可从各Maven公共仓库下载。 开发者能力要求 您已经对大数据领域各组件具备一定的认识。 您已经对弹性云服务器的使用方式和MRS服务开发组件有一定的了解。
ALM-50221 BE数据盘的使用率超过阈值 告警解释 系统每30秒周期性检查BE数据盘的使用率,当检查到该值超出阈值(默认值为95%)时产生该告警。 当系统检测到BE数据盘的使用率低于阈值时,告警清除。 告警属性 告警ID 告警级别 是否可自动清除 50221 紧急 是 告警参数
残留进程导致Regionsever启动失败 问题现象 HBase服务启动失败,健康检查报错。 原因分析 查看启动HBase服务时manager页面的详细打印信息,提示the previous process is not quit。 解决办法 登录节点,后台通过执行ps -ef |
jar包冲突列表 Jar包名称 描述 处理方案 spark-core_2.1.1-*.jar Spark任务的核心jar包。 Spark可以直接使用开源同版本的spark包运行样例代码,但是不同版本的spark-core包在使用的时候可能互相序列化ID不一样,建议使用集群自带jar包。 jackson-*
anager页面。 检查是否绑定弹性IP:如果需要从本地访问Manager,需要对集群绑定弹性IP且弹性IP可用才可访问。 检查安全组:MRS集群对应的安全组规则中,需要对当前用户开放9022端口。安全组规则中添加的用户本地IP是否发生变化。 检查浏览器:检查本地浏览器是否正常,
HostName 产生告警的主机名。 对系统的影响 无 可能原因 Presto实例线程数量过大。 Presto并发执行的任务过多。 处理步骤 检查任务并发量 检查当前集群CPU负载是否正常,SQL并发量是否符合预期。 是,执行2。 否,执行4。 调整线程数告警触发阈值。 在FusionInsight
HostName 产生告警的主机名 对系统的影响 无 可能原因 Presto实例线程数量过大。 Presto并发执行的任务过多。 处理步骤 检查任务并发量 检查当前集群CPU负载是否正常,SQL并发量是否符合预期。 是,执行2。 否,执行4。 调整线程数告警触发阈值。 在FusionInsight
员帮助用户快速定位问题,用户可以随时收回该授权。 健康检查 MRS为用户提供界面化的系统运行环境自动检查服务,帮助用户实现一键式系统运行健康度巡检和审计,保障系统的正常运行,降低系统运维成本。用户查看检查结果后,还可导出检查报告用于存档及问题分析。 父主题: 产品功能
ALM-14036 NameNode进入安全模式 告警解释 NameNode每30秒周期性检查进程状态,NameNode进入安全模式时触发该告警。 进程状态正常后告警清除。 该告警仅适用于MRS 3.3.1及之后版本。 告警属性 告警ID 告警级别 是否可自动清除 14036 重要
ALM-45653 Flink HA证书文件失效 本章节适用于MRS 3.3.0及以后版本。 告警解释 Flink首次或者每天01:00:00开始健康检查时,检查当前系统中的HA证书文件是否失效(证书是否存在,证书格式是否正确),如果证书文件失效,产生该告警。证书文件恢复,告警恢复。 告警属性 告警ID
Worker的read请求平均时延超过阈值 本章节仅适用于MRS 3.5.0及之后版本。 告警解释 系统每30秒周期性检查MemArtsCC组件的CCWorker进程内部所有read请求的平均时延,当检查到超过限制时触发该告警。 当检测到CCWorker进程内的read请求时延下降到低于阈值时,告警恢复。
HostName 产生告警的主机名。 对系统的影响 无 可能原因 Presto实例线程数量过大。 Presto并发执行的任务过多。 处理步骤 检查任务并发量 检查当前集群CPU负载是否正常,SQL并发量是否符合预期。 是,执行2。 否,执行4。 调整线程数告警触发阈值。 在FusionInsight
HostName 产生告警的主机名。 对系统的影响 无 可能原因 Presto实例线程数量过大。 Presto并发执行的任务过多。 处理步骤 检查任务并发量 检查当前集群CPU负载是否正常,SQL并发量是否符合预期。 是,执行2。 否,执行4。 调整线程数告警触发阈值。 在FusionInsight
MRS的备份任务总是执行失败。 原因分析 备份目录软链接到系统盘,系统盘满了之后备份任务失败。 处理步骤 检查备份目录是否软链接到系统盘。 以root用户登录集群主备Master节点。 执行df -h命令查看磁盘情况,检查系统盘的存储情况。 执行 ll /srv/BigData/LocalBackup命令,
HostName 产生告警的主机名。 对系统的影响 无 可能原因 Presto实例线程数量过大。 Presto并发执行的任务过多。 处理步骤 检查任务并发量 检查当前集群CPU负载是否正常,SQL并发量是否符合预期。 是,执行2。 否,执行4。 调整线程数告警触发阈值。 在FusionInsight
说明: 使用安装客户端的用户执行以下命令加密密码。加密工具第一次执行时自动生成随机动态密钥并保存在“.loader-tools.key”中,加密工具每次加密密码时会使用此动态密钥。删除“.loader-tools.key”后加密工具执行时会重新生成新的随机密钥并保存在“.loader-tools