检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
状态和Z状态。或进程可能被挂起进入T状态。 处理步骤 查看进程是否处于D、Z、T状态 登录FusionInsight Manager页面,选择“运维 > 告警 > 告警”,等待约10分钟后,在告警列表中查看该告警是否自动清除。 是,处理完毕。 否,查看该告警详细信息,记录上报告警的主机IP地址。执行2。
检查“/etc/fstab”文件中配置的分区,是否在“/proc/mounts”中能找到。 检查在“fstab”中配置的swap分区,是否和“/proc/swaps”一一对应。 /etc/hosts检查文件的检查标准 通过命令cat /etc/hosts查看是否存在以下几种情况,如果是,则说明该配置文件配置异常。
4:开启SPINNING_DISK_OPTIMIZED_HIGH_MEM Flush线程数,增加线程数以快速将内存数据落盘 增加线程数的同时,需增加vcore的数量 推荐2-10 否:执行9。 重启作业,检查告警是否恢复。 是,处理完毕。 否,执行9。 联系运维人员,并发送已收集的故障日志信息。
4:开启SPINNING_DISK_OPTIMIZED_HIGH_MEM Flush线程数,增加线程数以快速将内存数据落盘 增加线程数的同时,需增加vcore的数量 推荐2-10 否:执行9。 重启作业,检查告警是否恢复。 是,处理完毕。 否,执行9。 联系运维人员,并发送已收集的故障日志信息。
关键文件权限异常 告警解释 系统每隔5分钟检查一次系统中关键目录或者文件权限、用户、用户组是否正常,如果不正常,则上报故障告警。 当检查到权限等均正常,则告警恢复。 告警属性 告警ID 告警级别 是否自动清除 12041 重要 是 告警参数 参数名称 参数含义 来源 产生告警的集群或系统名称。
ommdba密码过期 告警解释 系统每天零点开始,每8小时检测当前系统中ommdba密码是否过期,如果过期,则发送告警。 当系统中ommdba密码过期的期限重置,当前状态为正常,告警恢复。 告警属性 告警ID 告警级别 是否自动清除 12084 重要 是 告警参数 参数名称 参数含义 来源 产生告警的集群或系统名称。
不要超过40个,否则可能导致界面响应时间过长。 表1 Flume角色客户端所需修改的参数列表 参数名称 参数值填写规则 参数样例 ssl 是否启用SSL认证(基于安全要求,建议启用此功能) 只有“Avro”类型的Source才有此配置项 true表示启用 false表示不启用 false
增加Kafka Topic分区 操作场景 用户可以通过KafkaUI增加Kafka Topic分区。 安全模式集群下,执行分区迁移操作的用户需属于“kafkaadmin”用户组,否则将会由于鉴权失败导致操作失败。 非安全模式下,KafkaUI对任意操作不作鉴权处理。 本章节内容仅适用于MRS
增加Kafka Topic分区 操作场景 用户可以通过KafkaUI增加Kafka Topic分区。 安全模式集群下,执行分区迁移操作的用户需属于“kafkaadmin”用户组,否则将会由于鉴权失败导致操作失败。 非安全模式下,KafkaUI对任意操作不作鉴权处理。 增加分区 进入KafkaUI界面。
主机随机端口范围配置与集群使用端口冲突 告警解释 系统每一个小时检查一次主机随机端口配置范围是否与集群使用端口范围冲突,如果有冲突,则发送此告警。待客户重新修改该主机的随机端口范围配置到正常范围,该告警会自动清除。 告警属性 告警ID 告警级别 是否自动清除 12064 重要 是 告警参数 参数名称 参数含义 来源
Queues”中查看root队列是否资源用满。 是,执行3。 否,执行4。 对Yarn服务的NodeManager实例进行扩容。扩容后,查看告警是否消除。 是,处理完毕。 否,执行6。 检查队列最大资源容量和AM最大资源百分比 查看pending任务对应的队列的资源是否用满。 是,执行5。 否,执行6。
Queues”中查看root队列是否资源用满。 是,执行3。 否,执行4。 对Yarn服务的NodeManager实例进行扩容。扩容后,查看告警是否消除。 是,处理完毕。 否,执行6。 检查队列最大资源容量和AM最大资源百分比 查看pending任务对应的队列的资源是否用满。 是,执行5。 否,执行6。
等待一段时间,检查该告警是否恢复。 是,处理完毕。 否,执行5。 增加Supervisor Slot数量配置。 登录FusionInsight Manager管理界面,选择“集群 > 待操作集群的名称 > 服务 > Storm > 配置 > 全部配置”。 适当增加每个Supervisor角色“supervisor
8版本补丁说明。 检查集群是否有非标修改组件配置的操作 询问客户是否有做过相关操作。 查看该客户档案,是否有记录相关非标操作。 是,需要详细评估补丁跟非标配置的兼容性。 否,检查结束。 检查集群是否有安装紧急补丁 登录客户集群的主备节点,进入“/home/omm”目录。 查看是否存在紧急补丁的
参数未配置时,OBS会使用OBS服务的默认KMS密钥完成加密。 fs.obs.connection.ssl.enabled true 标识是否与OBS建立安全连接。 true:开启安全连接,当需要使用OBS加解密功能时该参数必须配置为“true”。 false:关闭安全连接。 单
Manager查看主机上的CPU、内存、I/O和网络资源使用情况,确认这些资源是否已被充分利用,分以下几种情况: 每个节点资源占用都比较均匀 通过观察资源在每个节点都使用比较均匀,说明系统资源使用比较正常,可以先不关注,可以去分析SQL语句是否有进一步优化的余地。 有个别节点资源占用比较高 如果观察到
告警解释 系统每天零点开始,每8小时检测当前系统中ommdba用户是否即将过期,如果用户即将在15天内过期,则发送告警。 当系统中ommdba用户过期的期限重置,当前状态为正常,告警恢复。 告警属性 告警ID 告警级别 是否自动清除 12082 次要 是 告警参数 参数名称 参数含义 来源
否,节点间网络互通,检查结束。 检查弹性伸缩是否关闭 登录华为云MRS管理控制台界面,选择对应集群,单击“弹性伸缩”。 查看当前集群的弹性伸缩策略是否是关闭状态 否,请跟业务方确认是否可以关闭,如果可以请关闭弹性伸缩,否则请另择时间进行补丁升级。 是,弹性伸缩关闭,检查结束。 检查是否有正在运行的任务 登录FusionInsight
否,节点间网络互通,检查结束。 检查弹性伸缩是否关闭 登录华为云MRS管理控制台界面,选择对应集群,单击“弹性伸缩”。 查看当前集群的弹性伸缩策略是否是关闭状态。 否,请跟业务方确认是否可以关闭,如果可以请关闭弹性伸缩,否则请另择时间进行补丁升级。 是,弹性伸缩关闭,检查结束。 检查是否有正在运行的任务 登录FusionInsight
/etc/ntp.conf命令编辑NTP客户端配置文件,并增加MRS集群中Master节点的IP并注释掉其他server的地址。 server master1_ip prefer server master2_ip 图1 增加Master节点的IP 执行service ntpd stop命令关闭NTP服务。