检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
Condition 系统当前指标取值满足自定义的告警设置条件。 对系统的影响 当监控目录下的条目数超过系统阈值的90%触发该告警,但不影响对该目录继续增加条目。一旦超过系统最大阈值,继续增加条目会失败。 可能原因 监控目录的条目数超过系统阈值的90%。 处理步骤 检查系统中是否有不需要的文件。
本章节适用于MRS 3.3.0及以后版本。 告警解释 系统以用户配置的告警周期(metrics.reporter.alarm.job.alarm.rocksdb.metrics.duration,默认180s)检查作业RocksDB监控数据,如果作业RocksDB的Write P95耗时达到用户配置的阈值(metrics
ALM-50214 FE中处理任务的线程池中正在排队的任务数超过阈值 告警解释 系统每30秒周期性检查FE中处理任务的线程池中正在排队的任务数,当检查到该值超出阈值(默认值为10)时产生该告警。该线程池为NIO MySQL Server用于处理任务的线程池。 当FE中处理任务的线程池中正在排队的任务数低于阈值时,告警清除。
修改MRS集群系统域名 操作场景 每个系统用户安全使用的范围定义为“域”,不同的系统需要定义唯一的域名。FusionInsight Manager的域名在安装过程中生成,如果需要修改为特定域名,系统管理员可通过FusionInsight Manager进行配置。 修改系统域名为高危操
推荐64GB-512GB 否:执行9。 重启作业,检查告警是否恢复。 是,处理完毕。 否,执行9。 联系运维人员,并发送已收集的故障日志信息。 告警清除 此告警修复后,系统会自动清除此告警,无需手工清除。 参考信息 不涉及。 父主题: MRS集群告警处理参考
本章节适用于MRS 3.3.0及以后版本。 告警解释 系统以用户配置的告警周期(metrics.reporter.alarm.job.alarm.rocksdb.metrics.duration,默认180s)检查作业RocksDB监控数据,如果作业RocksDB持续触发写限流,即作业
否:执行13。 重启作业,检查告警是否恢复。 是,处理完毕。 否,执行13。 联系运维人员,并发送已收集的故障日志信息。 告警清除 此告警修复后,系统会自动清除此告警,无需手工清除。 参考信息 不涉及。 父主题: MRS集群告警处理参考
修改MRS集群节点操作系统用户密码 该任务指导用户定期修改MRS集群节点操作系统用户omm、ommdba、root的登录密码,以提升系统运维安全性。各节点操作系统用户无需设置为统一的密码。 默认集群操作系统用户密码有效期为90天,如果需要修改操作系统用户密码有效期,可以参考修改MRS操作系统用户密码有效期进行配置。
是 告警参数 参数名称 参数含义 来源 产生告警的集群或者系统名称 服务名 产生告警的服务名称 角色名 产生告警的角色名称 主机名 产生告警的主机名 对系统的影响 监控指标上报CES失败,在CES中无法看到MRS云服务的监控指标。 可能原因 权限问题请求CES接口失败。 网络问题上报CES数据失败。
ALM-14021 NameNode RPC处理平均时间超过阈值 告警解释 系统每30秒周期性检测NameNode的RPC处理平均时间,并把实际的NameNode的RPC处理平均时间和阈值(默认为100ms)相比较。当检测到NameNode的RPC处理平均时间连续多次(默认为10次)超出阈值范围时,产生该告警。
否:执行16。 重启作业,检查告警是否恢复。 是,处理完毕。 否,执行16。 联系运维人员,并发送已收集的故障日志信息。 告警清除 此告警修复后,系统会自动清除此告警,无需手工清除。 参考信息 不涉及。 父主题: MRS集群告警处理参考
主机名 产生告警的主机名。 Trigger Condition 系统当前指标取值满足自定义的告警设置条件。 对系统的影响 大量应用任务运行失败。 运行失败的任务需要重新提交。 可能原因 任务出于某种错误运行失败。 处理步骤 检查告警详情。 在FusionInsight Manager界面,选择“运维
ALM-24005 Flume传输数据异常 告警解释 告警模块对Flume Channel的容量状态进行监控,当Channel满的时长超过阈值,或Source向Channel放数据失败的次数超过阈值后,系统即时上报告警。 默认阈值为10,用户可通过conf目录下的配置文件properties.p
ed命令执行失败,产生一些临时文件,且没有读写可执行权限。如果这些文件产生在该告警的监控范围内,那么系统会上报该告警,告警原因可以看到是由于产生的临时文件权限异常导致,可以参照上述告警处理流程处理该告警,或者确认权限异常文件为临时文件后,可以直接删除。sed命令产生的临时文件类似于下图。
MRS集群是否支持切换操作系统? 问: MRS集群是否支持切换操作系统? 答: MRS集群内节点操作系统为ECS初始镜像,不支持切换操作系统。 父主题: 节点管理类
Kudu应用开发流程 开发流程中各阶段的说明如图1和表1所示。 图1 Kudu应用程序开发流程 表1 Kudu应用开发的流程说明 阶段 说明 参考文档 了解基本概念 在开始开发应用前,需要了解Kudu的基本概念。 Kudu应用开发常用概念 准备开发和运行环境 Kudu的应用程序支
Hive应用开发流程 开发流程中各阶段的说明如图1和表1所示。 图1 Hive应用程序开发流程 表1 Hive应用开发的流程说明 阶段 说明 参考文档 准备开发环境 在进行应用开发前,需首先准备开发环境,推荐使用Java语言进行开发,使用IntelliJ IDEA工具,同时完成JDK、Maven等初始配置。
Kudu应用开发流程 开发流程中各阶段的说明如图1和表1所示。 图1 Kudu应用程序开发流程 表1 Kudu应用开发的流程说明 阶段 说明 参考文档 了解基本概念 在开始开发应用前,需要了解Kudu的基本概念。 Kudu应用开发常用概念 准备开发和运行环境 Kudu的应用程序支
MRS集群是否支持重装系统? 问: MRS集群是否支持重装系统? 答: MRS集群内节点操作系统为ECS初始镜像,不支持重装操作系统。 父主题: 节点管理类
Oozie应用开发流程 本文档主要基于java API对Oozie进行应用开发。 开发流程中各阶段的说明如图1和表1所示。 图1 Oozie应用程序开发流程 表1 Oozie应用开发的流程说明 阶段 说明 参考文档 了解基本概念 在开始开发应用前,需要了解Oozie的基本概念,了解场景需求等。