检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
Manager平台,无法进行正常运维操作。 pms进程持续重启,导致告警上报时间段监控数据采集异常,严重时可导致告警上报时间段监控数据丢失。 可能原因 pms进程异常。 处理步骤 检查pms进程是否异常。 打开FusionInsight Manager页面,在告警列表中,单击此告警所在行的,查看该告警的主机名称。
主机名 产生告警的主机名。 对系统的影响 omm用户过期,Manager各节点互信不可用,无法对服务提供管理功能。 可能原因 omm用户过期。 处理步骤 检查系统中omm用户是否过期。 以root用户登录集群故障节点,用户密码为安装前用户自定义,请咨询系统管理员。 执行chage -l
产生告警的主机名。 对系统的影响 ommdba密码过期,Manager各节点互信不可用,无法对服务提供管理功能。 可能原因 该主机ommdba密码过期。 处理步骤 检查系统中ommdba密码是否过期。 以root用户登录集群故障节点,用户密码为安装前用户自定义,请咨询系统管理员。 执行chage
产生告警的主机名。 对系统的影响 Manager主备倒换。 executor进程持续重启,可能引起无法访问集群界面。 可能原因 executor进程异常。 处理步骤 检查executor进程是否异常。 打开FusionInsight Manager页面,在告警列表中,单击此告警所在行的,查看该告警的主机名称。
运行MRS作业时如何读取OBS加密数据 MRS 1.9.x支持使用OBS文件系统中加密后的数据来运行作业,同时支持将加密后的作业运行结果存储在OBS文件系统中。目前仅支持通过OBS协议访问数据。 OBS支持使用KMS密钥的加解密方式对数据进行加解密,所有的加解密操作都在OBS完成,同时密钥管理在DEW服务。
2分钟后,查看告警列表中,该告警是否已清除。 是,处理完毕。 否,执行11。 重新设置转储规则。 在FusionInsight Manager界面,选择“审计 > 配置”。 重新设置转储规则,填入正确的参数,单击“确定”。 2分钟后,查看告警列表中,该告警是否已清除。 是,处理完毕。 否,执行14。 收集故障信息。
系统按60秒周期检测Ldap资源,当连续6次监控到Manager中的Ldap资源异常时,系统产生此告警。 当Manager中的Ldap资源恢复,且告警处理完成时,告警恢复。 MRS 3.3.1及之后版本,告警名称从“Oldap资源异常”变成“Manager Oldap资源异常”。 告警属性 告警ID
修复网络故障,查看告警列表中,该告警是否已清除。 是,处理完毕。 否,执行6。 联系硬件管理员查看是否节点硬件故障(CPU或者内存等)。 是,执行7。 否,执行12。 维修或者更换故障部件,并重启节点。查看告警列表中,该告警是否已清除。 是,处理完毕。 否,执行8。 当集群中上报大量的节点
时,没有失败时间段的备份包,导致失败时间段数据无法恢复。 可能原因 该告警产生原因依赖于该任务的详细情况,直接获取日志和任务详情来处理该告警。 处理步骤 查看磁盘空间是否不足。 在FusionInsight Manager管理界面,选择“运维 > 告警 > 告警”。 在告警列表中
节点的操作系统熵值不足,可能导致该节点上加解密等命令执行慢,进而引起各实例业务处理性能下降,甚至业务进程无法正常执行。 可能原因 haveged或者rng-tools工具未安装或未启动。 系统熵值连续多次检测低于100。 处理步骤 检查haveged或rng-tools工具是否安装或启动。 在FusionInsight
对系统的影响 业务失败:磁盘不可写或不可读时,如果需要修改或使用该磁盘上的数据,可能会导致作业运行失败。 可能原因 磁盘挂载目录权限异常或磁盘坏道。 处理步骤 检查磁盘挂载目录权限是否正常。 打开FusionInsight Manager页面,在告警列表中,单击此告警所在行的,查看该告警的主
产生告警的服务名称。 附加信息 详细信息 密码即将过期的用户名称。 对系统的影响 用户密码过期,该用户将无法正常使用。 可能原因 用户密码即将过期。 处理步骤 修改用户密码。 登录FusionInsight Manager界面,选择“运维 > 告警 > 告警”,在告警列表中展开此告警的详细信
状态和Z状态。或进程可能被挂起进入T状态。 处理步骤 查看进程是否处于D、Z、T状态 登录FusionInsight Manager页面,选择“运维 > 告警 > 告警”,等待约10分钟后,在告警列表中查看该告警是否自动清除。 是,处理完毕。 否,查看该告警详细信息,记录上报告警的主机IP地址。执行2。
Yarn队列资源不足 计算实例进程故障 处理步骤 检查HDFS服务状态。 在告警列表中,查看是否有“ALM-14000 HDFS服务不可用”告警产生。 是,执行2。 否,执行4。 参考ALM-14000 HDFS服务不可用告警帮助指导处理该告警。 在告警列表中,查看“ALM-45001
告警模块按60秒周期检测RangerAdmin状态,当检测到RangerAdmin状态异常时,系统产生此告警。 当系统检测到RangerAdmin状态恢复正常,且告警处理完成时,告警恢复。 告警属性 告警ID 告警级别 是否自动清除 45276 重要 是 告警参数 参数名称 参数含义 来源 产生告警的集群名称。
Spark应用开发简介 Spark简介 Spark是分布式批处理框架,提供分析挖掘与迭代式内存计算能力,支持多种语言(Scala/Java/Python)的应用开发。 适用以下场景: 数据处理(Data Processing):可以用来快速处理数据,兼具容错性和可扩展性。 迭代计算(Iterative
系统故障:卡IO可能会导致系统故障,从而导致客户的业务受到影响。如果慢盘上存储的数据包含关键信息,可能会导致系统崩溃或数据丢失。 可能原因 磁盘老化。 处理步骤 更换磁盘。 在FusionInsight Manager界面,选择“运维 > 告警 > 告警”。 查看该告警的详细信息,查看定位信息
产生告警的服务名称。 附加信息 详细信息 密码已过期的用户名称。 对系统的影响 用户密码过期,该用户将无法正常使用。 可能原因 用户密码已经过期。 处理步骤 修改用户密码。 登录FusionInsight Manager界面,选择“运维 > 告警 > 告警”,在告警列表中展开此告警的详细信
KrbServer服务异常。 JournalNode节点故障。 DataNode节点故障。 磁盘容量不足。 NameNode节点进入安全模式。 处理步骤 检查KrbServer服务状态。 在FusionInsight Manager首页,选择“集群 > 待操作集群的名称 > 服务”。 查看KrbServer服务是否存在。
Hive执行的HQL的Map数过高,将占用大量Yarn队列资源,可能导致任务耗时较长,并且影响其他使用此队列运行的任务。 可能原因 执行的HQL语句存在可以优化的可能。 处理步骤 检查HQL的Map个数。 在FusionInsight Manager首页,选择“集群 > 待操作集群的名称 > 服务 > Hive