检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
如何取消MRS集群风险告警的消息通知? 登录MRS服务控制台。 单击集群名称进入集群详情页面。 选择“告警管理 > 消息订阅规则”。 在待修改的规则所在行的“操作”列单击“编辑”,在“订阅规则”中取消对应风险告警。 单击“确定”完成修改。 父主题: 集群管理类
告警模块按60秒周期检测RangerAdmin状态,当检测到RangerAdmin状态异常时,系统产生此告警。 当系统检测到RangerAdmin状态恢复正常,且告警处理完成时,告警恢复。 告警属性 告警ID 告警级别 是否自动清除 45276 重要 是 告警参数 参数名称 参数含义 来源 产生告警的集群名称。
2分钟后,查看告警列表中,该告警是否已清除。 是,处理完毕。 否,执行11。 重新设置转储规则。 在FusionInsight Manager界面,选择“审计 > 配置”。 重新设置转储规则,填入正确的参数,单击“确定”。 2分钟后,查看告警列表中,该告警是否已清除。 是,处理完毕。 否,执行14。 收集故障信息。
系统按60秒周期检测Ldap资源,当连续6次监控到Manager中的Ldap资源异常时,系统产生此告警。 当Manager中的Ldap资源恢复,且告警处理完成时,告警恢复。 MRS 3.3.1及之后版本,告警名称从“Oldap资源异常”变成“Manager Oldap资源异常”。 告警属性 告警ID
时,没有失败时间段的备份包,导致失败时间段数据无法恢复。 可能原因 该告警产生原因依赖于该任务的详细情况,直接获取日志和任务详情来处理该告警。 处理步骤 查看磁盘空间是否不足。 在FusionInsight Manager管理界面,选择“运维 > 告警 > 告警”。 在告警列表中
节点的操作系统熵值不足,可能导致该节点上加解密等命令执行慢,进而引起各实例业务处理性能下降,甚至业务进程无法正常执行。 可能原因 haveged或者rng-tools工具未安装或未启动。 系统熵值连续多次检测低于100。 处理步骤 检查haveged或rng-tools工具是否安装或启动。 在FusionInsight
对系统的影响 业务失败:磁盘不可写或不可读时,如果需要修改或使用该磁盘上的数据,可能会导致作业运行失败。 可能原因 磁盘挂载目录权限异常或磁盘坏道。 处理步骤 检查磁盘挂载目录权限是否正常。 打开FusionInsight Manager页面,在告警列表中,单击此告警所在行的,查看该告警的主
产生告警的服务名称。 附加信息 详细信息 密码即将过期的用户名称。 对系统的影响 用户密码过期,该用户将无法正常使用。 可能原因 用户密码即将过期。 处理步骤 修改用户密码。 登录FusionInsight Manager界面,选择“运维 > 告警 > 告警”,在告警列表中展开此告警的详细信
状态和Z状态。或进程可能被挂起进入T状态。 处理步骤 查看进程是否处于D、Z、T状态 登录FusionInsight Manager页面,选择“运维 > 告警 > 告警”,等待约10分钟后,在告警列表中查看该告警是否自动清除。 是,处理完毕。 否,查看该告警详细信息,记录上报告警的主机IP地址。执行2。
environment variables CLOUD_SDK_AK and CLOUD_SDK_SK in the local environment ak = os.environ["CLOUD_SDK_AK"] sk = os.environ["CLOUD_SDK_SK"]
MRS Hive对接外部LDAP配置说明 应用场景 本章节介绍Hive如何对接外部LDAP并访问HiveServer。 为了管理集群中数据与资源的访问控制权限,在安全模式下,客户端应用程序在访问集群中的任意资源之前均需要通过身份认证,建立安全会话链接。 MRS通过KrbServe
当Guardian调用IAM 接口失败时,可能会导致获取访问OBS的临时aksk失败,进而业务无法正常访问OBS。 可能原因 IAM 服务异常。 处理步骤 收集故障信息。 在FusionInsight Manager界面,选择“运维 > 日志 > 下载”。 在“服务”框中勾选待操作集群的“Guardian”。
产生告警的主机名。 对系统的影响 当ClickHouse进程异常时,会导致业务无法正常执行。 可能原因 ClickHouse进程运行异常。 处理步骤 登录FusionInsight Manager页面,选择“运维 > 告警 > 告警”,查看当前告警“定位信息”中的角色名以及确认主机名所在的IP地址。
Agent启动失败时(即时上报告警),系统产生此告警。 当检测到Flume Agent进程故障恢复,Flume Agent启动成功,且告警处理完成时,告警恢复。 告警属性 告警ID 告警级别 是否自动清除 24001 重要 是 告警参数 参数名称 参数含义 来源 产生告警的集群名称。
对系统的影响 FGC时间超出阈值,会影响到数据的读写。 可能原因 该节点实例内存使用率过大,或配置的堆内存不合理,导致进程GC频繁。 处理步骤 检查GC时间 用户可通过“运维> 告警 > 阈值设置 > 待操作集群的名称 > Impala > 进程FGCT >Catalog进程
系统故障:卡IO可能会导致系统故障,从而导致客户的业务受到影响。如果慢盘上存储的数据包含关键信息,可能会导致系统崩溃或数据丢失。 可能原因 磁盘老化。 处理步骤 更换磁盘。 在FusionInsight Manager界面,选择“运维 > 告警 > 告警”。 查看该告警的详细信息,查看定位信息
产生告警的服务名称。 附加信息 详细信息 密码已过期的用户名称。 对系统的影响 用户密码过期,该用户将无法正常使用。 可能原因 用户密码已经过期。 处理步骤 修改用户密码。 登录FusionInsight Manager界面,选择“运维 > 告警 > 告警”,在告警列表中展开此告警的详细信
KrbServer服务异常。 JournalNode节点故障。 DataNode节点故障。 磁盘容量不足。 NameNode节点进入安全模式。 处理步骤 检查KrbServer服务状态。 在FusionInsight Manager首页,选择“集群 > 待操作集群的名称 > 服务”。 查看KrbServer服务是否存在。
Hive执行的HQL的Map数过高,将占用大量Yarn队列资源,可能导致任务耗时较长,并且影响其他使用此队列运行的任务。 可能原因 执行的HQL语句存在可以优化的可能。 处理步骤 检查HQL的Map个数。 在FusionInsight Manager首页,选择“集群 > 待操作集群的名称 > 服务 > Hive
environment variables CLOUD_SDK_AK and CLOUD_SDK_SK in the local environment ak = os.environ["CLOUD_SDK_AK"] sk = os.environ["CLOUD_SDK_SK"]